云计算百科
云计算领域专业知识百科平台

Linux 服务器硬件故障排查笔记

Linux 服务器硬件故障排查笔记

以下是一份详细的 Linux 服务器硬件故障排查笔记记录,涵盖常见硬件组件的故障类型、排查方法及 Linux 相关命令:

 

目录

1. 内存(RAM)

故障类型

排查方法

解决方法

2. 硬盘(HDD/SSD)

故障类型:

排查方法:

解决方法:

3. CPU

故障类型:

排查方法:

解决方法:

4. 主板(Motherboard)

故障类型:

排查方法:

解决方法:

5. GPU

故障类型:

排查方法:

解决方法:

6. 电源(PSU)

故障类型:

排查方法:

解决方法:

7. 风扇

故障类型:

排查方法:

解决方法:

8. 网卡(NIC)

故障类型:

排查方法:

解决方法:

9. 转接板/交换板/供电板

故障类型:

排查方法:

解决方法:

10. BMC(基板管理控制器)

故障类型:

排查方法:

解决方法:

11. BIOS/UEFI

故障类型:

解决方法:

12. RAID 控制器

故障类型:

排查方法:

解决方法:

通用排查工具

注意事项


1. 内存(RAM)

故障类型:

  • ECC 错误(内存校验错误)
  • 内存条接触不良
  • 内存槽损坏
  • 内存容量识别异常
  • 内存过热或不兼容

排查方法:

1. 查看内存错误日志

dmesg | grep -i "memory\\|ecc\\|error" # 检查内核日志中的内存错误
journalctl -k | grep -i "memory" # 查看系统日志中的内存问题

2. 内存压力测试

memtester 2G 10 # 测试内存稳定性(需安装 memtester)
stress-ng –vm 4 –vm-bytes 2G –timeout 60s # 模拟内存压力

3.
查看内存信息

dmidecode -t memory # 显示内存详细信息(型号、容量、速度)
free -h # 查看已识别内存容量

解决方法:

  • 重新插拔内存条,清理金手指。
  • 更换内存插槽测试。
  • 更新 BIOS/UEFI 固件。
  • 替换故障内存条。

2. 硬盘(HDD/SSD)

故障类型:

  • 坏道/物理损坏
  • S.M.A.R.T 错误
  • RAID 阵列降级/失效
  • 接口接触不良(SATA/SAS/NVMe)
  • 文件系统损坏

排查方法:

1. 查看硬盘状态

smartctl -a /dev/sda # 检查 S.M.A.R.T 信息(需安装 smartmontools)
lsblk # 查看硬盘设备列表
hdparm -i /dev/sda # 查看硬盘参数

2. RAID 状态检查

cat /proc/mdstat # 查看软 RAID 状态
MegaCli -LDInfo -Lall -aAll # MegaRAID 阵列状态(需安装 MegaCLI)

3.
文件系统检查

fsck /dev/sda1 # 强制修复文件系统(需卸载分区)

解决方法:

  • 替换故障硬盘并重建 RAID。
  • 使用 `badblocks` 检测坏道:

badblocks -v /dev/sda # 扫描坏道

  • 恢复备份数据。

3. CPU

故障类型:

  • 过热(散热不良)
  • 微码错误
  • 核心不稳定(超频导致)
  • 物理损坏

排查方法:

1. 温度监控

sensors # 查看 CPU 温度(需安装 lm-sensors)

2. 查看 CPU 负载

top # 实时监控 CPU 使用率
mpstat -P ALL 1 # 查看各核心负载

3.
检查 CPU 错误日志

dmesg | grep -i "cpu\\|mce" # 检查 CPU 相关的硬件错误

解决方法:

  • 清理散热器,更换硅脂。
  • 更新 BIOS 和 CPU 微码:

apt install intel-microcode # 更新 Intel CPU 微码

4. 主板(Motherboard)

故障类型:

  • 电容鼓包/漏液
  • 接口损坏(PCIe、USB)
  • BIOS/UEFI 固件错误
  • 时钟芯片故障

排查方法:

1. 查看主板信息

dmidecode -t baseboard # 显示主板详细信息

2.
检查 PCIe 设备

lspci -vvv # 查看 PCIe 设备状态

解决方法:

  • 更换主板或维修电容。
  • 重置 BIOS 设置(通过跳线或电池放电)。

5. GPU

故障类型:

  • 驱动崩溃
  • 显存错误
  • 过热或风扇故障

排查方法:

1. 查看 GPU 状态

nvidia-smi # NVIDIA GPU 状态(需安装驱动)
radeontop # AMD GPU 监控

2.
检查内核日志

dmesg | grep -i "gpu\\|drm"

解决方法:

  • 更新 GPU 驱动。
  • 清理散热器或更换风扇。

6. 电源(PSU)

故障类型:

  • 电压不稳
  • 电源模块损坏
  • 供电不足

排查方法:

1. 查看 IPMI/BMC 日志(需支持):

ipmitool sel list # 查看硬件事件日志

2.
检查系统日志

journalctl -u ipmi # 查看 IPMI 相关日志

解决方法:

  • 更换电源模块。
  • 使用冗余电源。

7. 风扇

故障类型:

  • 转速异常
  • 停转
  • 噪音过大

排查方法:

sensors # 查看风扇转速(需主板支持)
ipmitool sensor # 通过 IPMI 监控

解决方法:

  • 清理灰尘,更换故障风扇。

8. 网卡(NIC)

故障类型:

  • 链路中断
  • 驱动不兼容
  • MAC 地址丢失

排查方法:

ethtool eth0 # 查看网卡状态(连接速度、丢包)
ip link show # 检查网卡接口状态
dmesg | grep -i "eth0\\|network"

解决方法:

  • 更新网卡驱动:

modprobe -r ixgbe && modprobe ixgbe # 重新加载驱动(示例)

9. 转接板/交换板/供电板

故障类型:

  • 接口氧化
  • 信号干扰
  • 供电不稳定

排查方法:

1. 物理检查:观察指示灯状态。

2. 查看连接设备

lshw -short # 列出所有硬件连接

解决方法:

  • 更换转接板或加固连接。

10. BMC(基板管理控制器)

故障类型:

  • IPMI 服务无响应
  • 固件漏洞
  • 登录失败

排查方法:

ipmitool mc info # 查看 BMC 状态
ipmitool lan print # 检查网络配置

解决方法:

  • 重置 BMC:

ipmitool mc reset cold

11. BIOS/UEFI

故障类型:

  • 配置错误
  • 固件过时
  • 启动项丢失

解决方法:

  • 重置 BIOS 默认设置。
  • 更新固件(从厂商官网下载)。

12. RAID 控制器

故障类型:

  • 电池失效(BBU)
  • 缓存错误
  • 固件不兼容

排查方法:

MegaCli -AdpAllInfo -aAll # 查看 RAID 卡信息
MegaCli -PDList -aAll # 查看物理磁盘状态

解决方法:

  • 更换 RAID 卡电池。
  • 更新 RAID 卡固件。

通用排查工具

1. 硬件信息汇总

lshw # 列出所有硬件详细信息
inxi -Fxz # 系统概览(需安装 inxi)

2.
日志分析

dmesg # 内核日志
journalctl -p 3 -xb # 查看系统错误日志

注意事项

  • 备份数据:在操作前确保关键数据已备份。
  • 静电防护:操作硬件时佩戴防静电手环。
  • 固件更新:定期检查厂商固件更新。

此笔记可作为快速参考手册,实际操作需结合具体硬件型号和厂商文档。

赞(0)
未经允许不得转载:网硕互联帮助中心 » Linux 服务器硬件故障排查笔记
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!