步骤 7:求助于 IBM Support
如果已经尝试了所有合理的步骤,需要新的想法,通常应该联系 IBM Support。他们有高级的故障排除工具,有精通操作系统和相关产品(比如 VIO 和 PowerHA)的每个方面的专家,可以调出相关的案例以证实并协助解决相似的问题。但是,如果您以前没有拨打过 800-IBM-SERV,有几点需要了解。
首先,您应该有 IBM 合同号。有多个支持级别,从最高级的由专人负责的 24x7x365 支持直到适用于非关键服务器的上午 8 点到下午 5 点支持。可以直接从 IBM 购买这些支持服务包,也可以与增值销售商签订合同。
还需要提供一些信息,让 IBM Support 可以调出您的账户 — 通常是服务器所在地的电话号码、序列号、合同号或物理位置。这一信息很大程度上取决于您建立的是硬件案例还是软件案例。
还必须让支持人员了解问题的严重程度或优先级。优先级分为从 1 到 4 几个级别。1 级通常涉及系统停止运行或生产影响,对于这个级别会马上把电话转给技术人员。4 级意味着处理时间可以长一些,通常用于一般的管理问题。
您描述问题并建立支持案例之后,会给您一个跟踪号 — 通常称为 PMR。这个号码向与您协作的其他支持人员标识这个案例。硬件和软件 PMR 是惟一的,如果您的问题跨越边界,就需要得到新的号码。
对于两个示例问题,我都不得不联系 IBM。对于第一个问题,IBM 调动从 VIO 支持到内核团队的多方面人员参与解决问题。对于第二个问题,只有硬件技术人员参与,我提供了来自 snap 命令的信息以供分析。
步骤 8:走极端
有时候,没有其他方法能够解决问题,只能尝试大多数人认为是发疯的某些非正统措施。当您已经绝望,甚至工作或生命岌岌可危时,通常会这么做。在这种情况下,IBM 支持人员常常会说,“如果您这么做,就会处于不受支持的状态,必须重新开始,然后我们才能够支持它。” 但是,如果您的解决方案是有效的,可能能够化险为夷。
对于我的第二个示例,在我联系 IBM Support 之后,他们说惟一的方法是生成 mksysb 映像以恢复服务器。由于我们没有更多东西可失去了,与我的管理员团队讨论之后,我们打算对 root 磁盘做三重镜像,然后从服务器上拨出磁盘。拨出磁盘可能导致服务器无法引导。但是,潜在的风险是拨出磁盘可能干扰更大的服务器,让它上面的所有 LPAR 崩溃。我们真敢这么做吗?
您来回答
既然我已经提供了问题的背景,该您来回答了。总结一下:
把一个启用了 Workload Manager 的服务器迁移到更快的硬件上,但是工作不正常,除非是把 LPAR 概要文件设置为使用专用的 CPU 而不是动态 CPU。这是为什么?
如何从无法撤销配置的磁盘恢复服务器,或者取出无法移出这个磁盘的物理分区中的数据?
如果您有主意了,就继续。
实际发生的情况
造成第一个问题的是 Workload Manager。使用它的应用程序被限制为只能使用 CPU 的 50%。因此,当系统管理程序轮询循环探测到那个 LPAR 时,它问 “您需要多少 CPU?” 服务器回复,“我目前只使用分配的 CPU 的一半儿。” 因此,系统管理程序会动态地把 CPU 标称值减少一半儿。这个循环重复几次之后,CPU 计算能力多次减半,基本上接近零了。为了解决这个问题,把 Workload Manager 池调整为最多使用 CPU 的 100%,这样动态的 CPU 标称值会适当地限制其本身。
对于第二个示例,最终只能执行备份和恢复。对于块重定位失败,没有企业乐意采用临时解决方法。根据 IBM Support 所说,这个问题很少见,只能执行 mksysb 把数据备份到好的磁盘上并恢复系统,没有其他选择。恢复操作系统之后,就可以以安全的方式热交换坏磁盘并更换它,而不会危及硬件上的其他 LPAR。
结束语
希望您对系统管理员如何排除 AIX 服务器的故障、可以使用的战略、应该避免的做法以及在哪里寻找解决问题的建议有了一些认识。这些步骤并不完全适合所有情况,还有其他选择,但是这些步骤可以指出正确的方向。