云计算百科
云计算领域专业知识百科平台

手把手教你诊断DELL PowerEdge服务器IERR故障

写在前面

今天帮一个客户诊断dell SC8000 存储控制器无法启动问题,在升级到我们之前客户自己做了一些故障的排查,主要是登录SC8000的iDRAC去查看,发现一台设备的CPU报IERR的错误。如下图所示:

客户想当然就认为是CPU的故障。

以前也遇到好几次这样的case,不过都是PowerEdge服务器的,客户反馈说,CPU也更换了,但是还是不行。在对客户的SC8000(其实就是DELL的PowerEdge R720服务器)做了全面分析和诊断处理后,最后故障定位到了PCIE的HBA卡上。

下面的部分就是关于如何对IERR故障的排查思路和方法,如果还有问题,需要进一步的讨论,可以添加vx:StorageExpert进一步沟通处理。

概述

在Dell PowerEdge服务器(如R520、R630、R720、R720xd、R910等型号)运行过程中,可能会遇到“CPU 1 has an internal error (IERR)”或“CPU 2 has an internal error (IERR)”的错误信息。如下图所示:

这种CPU内部错误(IERR)通常不是CPU本身故障,而是CPU检测到系统中其他组件或软件的问题,例如固件不匹配、系统总线中断或内存读写错误。本文将详细介绍如何系统性地排查和解决PowerEdge服务器的IERR故障。

IERR故障的可能原因

IERR故障可能由以下原因引起:

  • 硬件问题:
    • 系统总线中断。
    • 内存读写错误。
    • 其他硬件组件(如电源、扩展卡)故障。
  • 固件问题:
    • BIOS或iDRAC固件版本过旧或不匹配。
  • 软件问题:
    • 操作系统事件,例如致命内核错误、第三方程序冲突、运行时关键停止或资源过度分配。
  • 其他外部因素:
    • 电源供应不稳定。
    • 系统过热或散热不良。

    故障排查与解决方案

    以下是处理PowerEdge服务器IERR故障的详细步骤,基于Dell官方推荐的最佳实践:

    1. 检查系统事件日志

    • 操作:登录iDRAC界面或使用Open Manage Server Administrator,查看系统事件日志。
    • 目的:寻找与IERR同时发生的其他错误(如内存、电源或扩展卡相关错误)。
    • 后续:如果发现其他错误,优先解决这些问题,具体方法取决于错误类型。

    2. 更新固件

    • 操作:
    • 将BIOS和iDRAC固件更新到最新版本。
    • 可通过iDRAC界面更新固件,或者从Dell官网下载固件包,使用其他方法(如USB启动盘)更新。
    • 目的:确保固件兼容性和稳定性,解决可能的固件相关问题。

    3. 清除系统事件日志

    这个很重要,一定要做,否则启动还会触发警报。

    • 操作:
      • 在iDRAC或Open Manage Server Administrator中,打开系统事件日志。
      • 滚动到底部,点击“清除日志”。
    • 目的:旧的IERR日志可能在问题解决后仍触发警报,清除日志可避免误报。

    4. 执行Flea Power Drain(断电操作)

    这个也很重要,一定要做,我们经常说的放电重启就是这个。

    • 操作:
      • 关闭服务器,拔掉电源线。
      • 按住电源按钮20秒以释放残余电荷。
      • 重新连接电源线并启动服务器。

    5. 检查操作系统事件

    • 操作:
      • 如果怀疑IERR由操作系统事件引起,检查操作系统事件日志。
      • 将操作系统日志与系统事件日志交叉比对,找出可能的问题(如内核错误、资源过载)。

    这个其实比较容易判断,如果操作系统压根起不来,就和这个没有啥关系。我遇到的case中,基本上都是前面硬件的问题,但官方说有,那么咱也要留着这条。

    6. 硬件检查与诊断

    • 操作:
      • 检查服务器前面板的LED指示灯,确认是否有硬件错误(如橙色警告灯)。
      • 使用Dell SupportAssist或内置诊断工具运行硬件测试。
      • 尝试以最小化配置启动(仅保留一块内存、一个CPU等),排除其他硬件问题。
    • 注意:不要试图更换CPU来解决问题,IERR很少由CPU本身引起。

    经验之谈

  • 不要更换CPU
    • IERR错误通常与CPU无关,仅是CPU检测到系统问题的报告。
  • 最大可能的问题
    • 最可能导致这个IERR报错的硬件是DIMM内存
    • 一定要做放电重启
    • 各种PCIE卡也会导致这个报错。今天的SC8000的case就是PCIE卡的问题导致。
    赞(0)
    未经允许不得转载:网硕互联帮助中心 » 手把手教你诊断DELL PowerEdge服务器IERR故障
    分享到: 更多 (0)

    评论 抢沙发

    评论前必须登录!