写在前面
今天帮一个客户诊断dell SC8000 存储控制器无法启动问题,在升级到我们之前客户自己做了一些故障的排查,主要是登录SC8000的iDRAC去查看,发现一台设备的CPU报IERR的错误。如下图所示:
客户想当然就认为是CPU的故障。
以前也遇到好几次这样的case,不过都是PowerEdge服务器的,客户反馈说,CPU也更换了,但是还是不行。在对客户的SC8000(其实就是DELL的PowerEdge R720服务器)做了全面分析和诊断处理后,最后故障定位到了PCIE的HBA卡上。
下面的部分就是关于如何对IERR故障的排查思路和方法,如果还有问题,需要进一步的讨论,可以添加vx:StorageExpert进一步沟通处理。
概述
在Dell PowerEdge服务器(如R520、R630、R720、R720xd、R910等型号)运行过程中,可能会遇到“CPU 1 has an internal error (IERR)”或“CPU 2 has an internal error (IERR)”的错误信息。如下图所示:
这种CPU内部错误(IERR)通常不是CPU本身故障,而是CPU检测到系统中其他组件或软件的问题,例如固件不匹配、系统总线中断或内存读写错误。本文将详细介绍如何系统性地排查和解决PowerEdge服务器的IERR故障。
IERR故障的可能原因
IERR故障可能由以下原因引起:
- 系统总线中断。
- 内存读写错误。
- 其他硬件组件(如电源、扩展卡)故障。
- BIOS或iDRAC固件版本过旧或不匹配。
- 操作系统事件,例如致命内核错误、第三方程序冲突、运行时关键停止或资源过度分配。
- 电源供应不稳定。
- 系统过热或散热不良。
故障排查与解决方案
以下是处理PowerEdge服务器IERR故障的详细步骤,基于Dell官方推荐的最佳实践:
1. 检查系统事件日志
- 操作:登录iDRAC界面或使用Open Manage Server Administrator,查看系统事件日志。
- 目的:寻找与IERR同时发生的其他错误(如内存、电源或扩展卡相关错误)。
- 后续:如果发现其他错误,优先解决这些问题,具体方法取决于错误类型。
2. 更新固件
- 操作:
- 将BIOS和iDRAC固件更新到最新版本。
- 可通过iDRAC界面更新固件,或者从Dell官网下载固件包,使用其他方法(如USB启动盘)更新。
- 目的:确保固件兼容性和稳定性,解决可能的固件相关问题。
3. 清除系统事件日志
这个很重要,一定要做,否则启动还会触发警报。
- 操作:
- 在iDRAC或Open Manage Server Administrator中,打开系统事件日志。
- 滚动到底部,点击“清除日志”。
- 目的:旧的IERR日志可能在问题解决后仍触发警报,清除日志可避免误报。
4. 执行Flea Power Drain(断电操作)
这个也很重要,一定要做,我们经常说的放电重启就是这个。
- 操作:
- 关闭服务器,拔掉电源线。
- 按住电源按钮20秒以释放残余电荷。
- 重新连接电源线并启动服务器。
5. 检查操作系统事件
- 操作:
- 如果怀疑IERR由操作系统事件引起,检查操作系统事件日志。
- 将操作系统日志与系统事件日志交叉比对,找出可能的问题(如内核错误、资源过载)。
这个其实比较容易判断,如果操作系统压根起不来,就和这个没有啥关系。我遇到的case中,基本上都是前面硬件的问题,但官方说有,那么咱也要留着这条。
6. 硬件检查与诊断
- 操作:
- 检查服务器前面板的LED指示灯,确认是否有硬件错误(如橙色警告灯)。
- 使用Dell SupportAssist或内置诊断工具运行硬件测试。
- 尝试以最小化配置启动(仅保留一块内存、一个CPU等),排除其他硬件问题。
- 注意:不要试图更换CPU来解决问题,IERR很少由CPU本身引起。
经验之谈
- IERR错误通常与CPU无关,仅是CPU检测到系统问题的报告。
- 最可能导致这个IERR报错的硬件是DIMM内存
- 一定要做放电重启
- 各种PCIE卡也会导致这个报错。今天的SC8000的case就是PCIE卡的问题导致。
评论前必须登录!
注册