Linux 服务器硬件故障排查笔记
以下是一份详细的 Linux 服务器硬件故障排查笔记记录,涵盖常见硬件组件的故障类型、排查方法及 Linux 相关命令:
目录
1. 内存(RAM)
故障类型
排查方法
解决方法
2. 硬盘(HDD/SSD)
故障类型:
排查方法:
解决方法:
3. CPU
故障类型:
排查方法:
解决方法:
4. 主板(Motherboard)
故障类型:
排查方法:
解决方法:
5. GPU
故障类型:
排查方法:
解决方法:
6. 电源(PSU)
故障类型:
排查方法:
解决方法:
7. 风扇
故障类型:
排查方法:
解决方法:
8. 网卡(NIC)
故障类型:
排查方法:
解决方法:
9. 转接板/交换板/供电板
故障类型:
排查方法:
解决方法:
10. BMC(基板管理控制器)
故障类型:
排查方法:
解决方法:
11. BIOS/UEFI
故障类型:
解决方法:
12. RAID 控制器
故障类型:
排查方法:
解决方法:
通用排查工具
注意事项
1. 内存(RAM)
故障类型:
- ECC 错误(内存校验错误)
- 内存条接触不良
- 内存槽损坏
- 内存容量识别异常
- 内存过热或不兼容
排查方法:
1. 查看内存错误日志:
dmesg | grep -i "memory\\|ecc\\|error" # 检查内核日志中的内存错误
journalctl -k | grep -i "memory" # 查看系统日志中的内存问题
2. 内存压力测试:
memtester 2G 10 # 测试内存稳定性(需安装 memtester)
stress-ng –vm 4 –vm-bytes 2G –timeout 60s # 模拟内存压力
3.
查看内存信息
:
dmidecode -t memory # 显示内存详细信息(型号、容量、速度)
free -h # 查看已识别内存容量
解决方法:
- 重新插拔内存条,清理金手指。
- 更换内存插槽测试。
- 更新 BIOS/UEFI 固件。
- 替换故障内存条。
2. 硬盘(HDD/SSD)
故障类型:
- 坏道/物理损坏
- S.M.A.R.T 错误
- RAID 阵列降级/失效
- 接口接触不良(SATA/SAS/NVMe)
- 文件系统损坏
排查方法:
1. 查看硬盘状态:
smartctl -a /dev/sda # 检查 S.M.A.R.T 信息(需安装 smartmontools)
lsblk # 查看硬盘设备列表
hdparm -i /dev/sda # 查看硬盘参数
2. RAID 状态检查:
cat /proc/mdstat # 查看软 RAID 状态
MegaCli -LDInfo -Lall -aAll # MegaRAID 阵列状态(需安装 MegaCLI)
3.
文件系统检查
:
fsck /dev/sda1 # 强制修复文件系统(需卸载分区)
解决方法:
- 替换故障硬盘并重建 RAID。
- 使用 `badblocks` 检测坏道:
badblocks -v /dev/sda # 扫描坏道
- 恢复备份数据。
3. CPU
故障类型:
- 过热(散热不良)
- 微码错误
- 核心不稳定(超频导致)
- 物理损坏
排查方法:
1. 温度监控:
sensors # 查看 CPU 温度(需安装 lm-sensors)
2. 查看 CPU 负载:
top # 实时监控 CPU 使用率
mpstat -P ALL 1 # 查看各核心负载
3.
检查 CPU 错误日志
:
dmesg | grep -i "cpu\\|mce" # 检查 CPU 相关的硬件错误
解决方法:
- 清理散热器,更换硅脂。
- 更新 BIOS 和 CPU 微码:
apt install intel-microcode # 更新 Intel CPU 微码
4. 主板(Motherboard)
故障类型:
- 电容鼓包/漏液
- 接口损坏(PCIe、USB)
- BIOS/UEFI 固件错误
- 时钟芯片故障
排查方法:
1. 查看主板信息:
dmidecode -t baseboard # 显示主板详细信息
2.
检查 PCIe 设备
:
lspci -vvv # 查看 PCIe 设备状态
解决方法:
- 更换主板或维修电容。
- 重置 BIOS 设置(通过跳线或电池放电)。
5. GPU
故障类型:
- 驱动崩溃
- 显存错误
- 过热或风扇故障
排查方法:
1. 查看 GPU 状态:
nvidia-smi # NVIDIA GPU 状态(需安装驱动)
radeontop # AMD GPU 监控
2.
检查内核日志
:
dmesg | grep -i "gpu\\|drm"
解决方法:
- 更新 GPU 驱动。
- 清理散热器或更换风扇。
6. 电源(PSU)
故障类型:
- 电压不稳
- 电源模块损坏
- 供电不足
排查方法:
1. 查看 IPMI/BMC 日志(需支持):
ipmitool sel list # 查看硬件事件日志
2.
检查系统日志
:
journalctl -u ipmi # 查看 IPMI 相关日志
解决方法:
- 更换电源模块。
- 使用冗余电源。
7. 风扇
故障类型:
- 转速异常
- 停转
- 噪音过大
排查方法:
sensors # 查看风扇转速(需主板支持)
ipmitool sensor # 通过 IPMI 监控
解决方法:
- 清理灰尘,更换故障风扇。
8. 网卡(NIC)
故障类型:
- 链路中断
- 驱动不兼容
- MAC 地址丢失
排查方法:
ethtool eth0 # 查看网卡状态(连接速度、丢包)
ip link show # 检查网卡接口状态
dmesg | grep -i "eth0\\|network"
解决方法:
- 更新网卡驱动:
modprobe -r ixgbe && modprobe ixgbe # 重新加载驱动(示例)
9. 转接板/交换板/供电板
故障类型:
- 接口氧化
- 信号干扰
- 供电不稳定
排查方法:
1. 物理检查:观察指示灯状态。
2. 查看连接设备:
lshw -short # 列出所有硬件连接
解决方法:
- 更换转接板或加固连接。
10. BMC(基板管理控制器)
故障类型:
- IPMI 服务无响应
- 固件漏洞
- 登录失败
排查方法:
ipmitool mc info # 查看 BMC 状态
ipmitool lan print # 检查网络配置
解决方法:
- 重置 BMC:
ipmitool mc reset cold
11. BIOS/UEFI
故障类型:
- 配置错误
- 固件过时
- 启动项丢失
解决方法:
- 重置 BIOS 默认设置。
- 更新固件(从厂商官网下载)。
12. RAID 控制器
故障类型:
- 电池失效(BBU)
- 缓存错误
- 固件不兼容
排查方法:
MegaCli -AdpAllInfo -aAll # 查看 RAID 卡信息
MegaCli -PDList -aAll # 查看物理磁盘状态
解决方法:
- 更换 RAID 卡电池。
- 更新 RAID 卡固件。
通用排查工具
1. 硬件信息汇总:
lshw # 列出所有硬件详细信息
inxi -Fxz # 系统概览(需安装 inxi)
2.
日志分析
:
dmesg # 内核日志
journalctl -p 3 -xb # 查看系统错误日志
注意事项
- 备份数据:在操作前确保关键数据已备份。
- 静电防护:操作硬件时佩戴防静电手环。
- 固件更新:定期检查厂商固件更新。
此笔记可作为快速参考手册,实际操作需结合具体硬件型号和厂商文档。
评论前必须登录!
注册