手把手教你优化海光服务器网卡性能（含Hygon CPU实战配置）

在当前的国产化技术浪潮中，基于海光（Hygon）处理器的服务器正越来越多地承载起核心业务。对于运维工程师和系统管理员而言，如何让这些“新引擎”发挥出最大效能，尤其是在网络I/O这一关键路径上，是一个既紧迫又充满挑战的课题。网络性能的瓶颈往往隐藏在硬件拓扑、内核参数与软件栈的细微配置之中，一次不经意的跨NUMA内存访问，或是一个未优化的中断绑定，就足以让昂贵的硬件性能大打折扣。本文将从一线实战经验出发，抛开理论堆砌，直接切入操作细节，为你呈现一套针对海光平台服务器网卡性能的深度调优方案。无论你是在部署金融交易系统、AI训练集群，还是高并发的云原生平台，这些经过验证的配置步骤和命令，都能帮助你快速定位并解决网络吞吐与延迟问题，真正实现国产硬件潜力的完全释放。

1. 理解海光平台的网络性能基石

在动手敲下任何一条优化命令之前，我们必须先理解海光处理器（Hygon CPU）的架构特性如何影响网络性能。这并非纸上谈兵，而是后续所有精细化操作的理论依据和决策前提。

海光处理器基于x86架构，但其内部设计，特别是多CCD（Core Complex Die）模块化设计和NUMA（非统一内存访问）架构，对网络数据流有着决定性影响。以典型的C86 7285系列处理器为例，它内部包含多个CCD，每个CCD实际上是一个包含多个核心、缓存和内存控制器的相对独立的“小芯片”。这种设计带来了极高的核心密度和能效，但也引入了复杂的内部互联拓扑。

注意：将服务器简单地视为一个整体是性能调优的大忌。在海光平台上，你必须时刻具备“拓扑意识”，即清楚每一个PCIe设备、每一块内存条归属于哪个NUMA节点（通常与CCD关联）。

网络数据包从网卡进入系统，到被应用程序处理，大致会经历以下路径：DMA写入内存 -> 触发硬件中断 -> 内核协议栈处理 -> 用户态程序读写。在海光平台上，这条路径的每一步都可能因为跨CCD/NUMA操作而引入额外的延迟。例如：

跨NUMA内存访问：如果网卡挂在NUMA Node 0上，但驱动程序或应用程序却从NUMA Node 1的内存分配缓冲区，那么每次DMA操作都需要经过片间互联链路，延迟可能增加数倍。
中断处理核心错位：网卡产生的中断如果被调度到远离其所属NUMA节点的CPU核心上处理，缓存命中率会下降，中断响应时间也会变长。
PCIe带宽瓶颈：虽然海光平台支持PCIe，但确保高性能网卡（如25G/100G）运行在足够的通道数（如x8, x16）和最高支持的速率下是基础。

因此，优化的核心思想可以概括为：“让数据流动的路径尽可能短，且尽可能直。” 即，将相关联的硬件（网卡）、内存（缓冲区）、计算力（CPU核心）都约束在同一个NUMA节点内，减少跨节点通信。

2. 硬件与固件层：打好性能优化的地基

性能优化必须自底向上。一个不匹配的硬件或一个过时的固件，会让所有上层软件优化事倍功半。

2.1 网卡选型与固件升级

并非所有网卡在海光平台上都能发挥最佳性能。优先选择那些经过深度适配、提供了针对海光平台优化驱动或固件的型号。

网卡类型推荐型号示例海光平台适配关键点

通用以太网卡	华为 Hi1822 SP系列、H3C 1822系列	需使用厂商提供的“海光平台定制版驱动”，该驱动通常优化了中断路由和DMA缓冲区分配策略，以契合CCD架构。
智能/卸载网卡	盛科 CN6110-AC-RoCE	支持国产RoCEv2协议栈，可在海光平台上实现高效的RDMA，对AI训练和存储集群至关重要。
DPU/智能网卡	中科驭数 DPU-K2	集成针对海光Dhyana核心优化的Virtio-net后端驱动，特别适合虚拟化云场景，能将网络负载从主机CPU卸载。

选定网卡后，第一要务是更新至最新的、为海光平台验证过的固件。固件更新往往修复了硬件层面的流控、错误恢复和性能调度问题。

# 示例：使用厂商工具更新华为Hi1822网卡固件
# 首先，确认当前固件版本
hccn_tool -i eth0 -fw_version
# 下载海光平台定制固件包并升级（请务必从官方渠道获取）
hccn_tool -i eth0 -upgrade_fw -f hw_hygon_fw_v2.1.8.bin
# 升级完成后，需要重启服务器或重新加载网卡驱动生效

2.2 探查硬件拓扑：NUMA与PCIe定位

优化前，我们必须绘制出系统的“性能地图”。使用以下命令集来了解你的硬件布局：

# 1. 查看系统NUMA节点拓扑
numactl -H

这个命令会输出类似以下信息，清晰地显示了节点、CPU核心和内存的归属关系：

available: 2 nodes (0-1)
node 0 cpus: 0 1 2 3 4 5 6 7 16 17 18 19 20 21 22 23
node 0 size: 65436 MB
node 0 free: 58768 MB
node 1 cpus: 8 9 10 11 12 13 14 15 24 25 26 27 28 29 30 31
node 1 size: 65536 MB
node 1 free: 60021 MB

# 2. 精确查看指定网卡所属的NUMA节点
# 首先通过 `ip link` 或 `lspci | grep Ether` 找到网卡的PCI地址，例如 3b:00.0
lspci -vv -s 0000:3b:00.0 | grep -i numa

输出中的 NUMA node 字段会告诉你该网卡挂载在哪个节点上。记下这个节点编号（例如 NUMA node 0）。

# 3. 查看网卡PCIe链路速度和宽度
lspci -s 0000:3b:00.0 -vv | grep -E "(LnkSta:|LnkCap:)"

确保 LnkSta 显示的速度（如 Speed 16GT/s 对应 PCIe 4.0）和宽度（如 Width x16）达到网卡和主板支持的最大值，避免因链路降级成为瓶颈。

3. 操作系统与内核层：精细化调优实战

掌握了硬件拓扑，我们就可以开始进行操作系统层面的深度调优了。这是提升性能最直接、效果最显著的环节。

3.1 中断亲和性（IRQ Affinity）绑定

这是减少跨NUMA中断延迟的关键步骤。目标是将网卡产生的中断，固定到与其在同一NUMA节点内的特定CPU核心上处理。

# 1. 找出你的网卡接口对应的中断号(IRQ)
# 假设网卡接口名为 eth0
grep eth0 /proc/interrupts | awk '{print $1}' | cut -d: -f1
# 输出可能是一个或多个数字，如 123, 124

# 2. 查看当前这些中断被哪些CPU核心处理
cat /proc/irq/123/smp_affinity
cat /proc/irq/124/smp_affinity
# 输出是十六进制掩码，例如 `ffffffff` 表示所有核心都可能处理。

# 3. 绑定中断到特定核心（推荐绑定到同一NUMA节点的非繁忙核心）
# 假设网卡在NUMA node 0，我们选择该节点上编号较小的核心，如 0-7。
# 先将CPU列表转换为十六进制掩码。对于CPU 0-7，掩码是 `ff` (二进制11111111)。
echo ff > /proc/irq/123/smp_affinity
echo ff > /proc/irq/124/smp_affinity

# 或者，使用更直观的 `smp_affinity_list`（支持CPU列表格式）
echo 0-7 > /proc/irq/123/smp_affinity_list
echo 0-7 > /proc/irq/124/smp_affinity_list

提示：通常将中断绑定到物理核心（而不是超线程核心）效果更好。你可以通过 cat /proc/cpuinfo 查看 core id 和 processor 的对应关系，选择每个物理核心的第一个逻辑CPU进行绑定。

3.2 进程与内存的NUMA绑定

确保处理网络数据的应用程序也运行在正确的NUMA节点上。这包括其进程本身和它分配的内存。

# 使用 numactl 命令启动应用程序，将其完全限定在网卡所在的NUMA节点
# 假设网卡在 node 0，我们启动一个 Redis 服务
numactl –cpunodebind=0 –membind=0 redis-server /path/to/redis.conf

# 对于已经运行的进程，可以使用 taskset 绑定CPU，但内存绑定仍需依赖numactl或程序自身。
# 绑定进程PID 12345 到 CPU 0-7
taskset -cp 0-7 12345

对于像Nginx、Envoy这样的网络服务，在启动脚本中加入numactl绑定是提升性能的标准化操作。

3.3 关键内核网络参数调优

Linux内核提供了大量网络参数，以下是一些针对海光平台高吞吐、低延迟场景的关键调整。请根据实际网络条件（延迟、带宽、丢包率）进行微调。

# 编辑 /etc/sysctl.conf 使配置永久生效，或使用 sysctl -w 临时生效。

# 增大TCP读写缓冲区范围，适应高带宽延迟积(BDP)网络
net.core.rmem_max = 134217728 # 128MB
net.core.wmem_max = 134217728
net.ipv4.tcp_rmem = 4096 87380 134217728
net.ipv4.tcp_wmem = 4096 65536 134217728

# 启用TCP窗口缩放、时间戳和选择性确认(SACK)，提升大流量传输效率
net.ipv4.tcp_window_scaling = 1
net.ipv4.tcp_timestamps = 1
net.ipv4.tcp_sack = 1

# 优化连接队列，防止高并发下丢包
net.core.somaxconn = 32768
net.ipv4.tcp_max_syn_backlog = 32768

# 减少TCP连接关闭时的等待时间，加速资源释放
net.ipv4.tcp_fin_timeout = 30
net.ipv4.tcp_keepalive_time = 600

# **海光平台针对性优化**：调整内存回收策略，减少跨NUMA内存迁移带来的性能抖动
vm.zone_reclaim_mode = 0 # 禁用本地节点内存回收时从其他节点回收内存
kernel.sched_migration_cost_ns = 500000 # 增加任务迁移成本，让进程更倾向于留在当前核心

4. 高级特性与场景化配置

除了通用优化，海光平台及其生态伙伴还提供了一些高级特性，可以在特定场景下带来显著提升。

4.1 启用国产加速引擎

一些国产网卡或海光平台配套软件提供了内核旁路或协议卸载功能。

赤霄加速引擎示例：这是一个模拟的国产TCP卸载引擎，如果您的系统安装了相关驱动，可以尝试启用。

# 加载内核模块
modprobe chixiao_engine
# 为特定网卡启用TCP卸载
echo 1 > /sys/class/net/eth0/chixiao/tcp_offload
# 调整加速缓冲区大小（如果需要）
echo 256 > /sys/class/net/eth0/chixiao/tcp_fastopen_size

启用后，部分TCP协议处理（如校验和、分段）会由网卡硬件或专用引擎完成，减轻CPU负担。
RDMA（RoCE）优化：在AI训练和分布式存储中，RDMA至关重要。确保使用适配海光的用户态库，并正确配置。

# 设置国产昆仑RDMA库路径
export LD_LIBRARY_PATH=/opt/kunlun_rdma/lib:$LD_LIBRARY_PATH
# 验证RDMA设备识别
ibv_devinfo
# 在深度学习框架中启用GPU Direct RDMA以进一步降低延迟
export NCCL_IB_GPU_DIRECT=1
export NCCL_SOCKET_IFNAME=eth0

4.2 场景化优化案例

案例一：金融低延迟交易系统
痛点：要求端到端网络延迟极低且稳定。
优化组合拳：

极致的中断绑定：将交易网卡的中断绑定到单个、专用的CPU核心，并禁用该核心的节能特性（cpupower frequency-set -g performance）和内核任务调度（isolcpus内核参数）。

内核旁路：考虑使用DPDK或Solarflare的OpenOnload等内核旁路技术，让交易应用直接与网卡通信，完全绕过内核协议栈。

内存锁定：使用mlockall()锁定交易进程的所有内存，防止被换出，确保访问确定性。

调整海光内存预取：根据负载访问模式，调整处理器的预取器。# 尝试更激进或更保守的预取模式
echo "aggressive" > /sys/devices/system/cpu/prefetch_mode # 假设此接口存在

案例二：AI训练（高吞吐集群）
痛点：需要持续稳定的高带宽，用于GPU间模型参数同步。
优化组合拳：

确保RoCE有效：如前所述，正确配置RDMA，并使用ib_write_bw、ib_read_bw工具验证带宽达到线速（如100G网卡达到93Gbps以上）。

CCD间通信优化：对于多路海光CPU，调整CCD间数据路由策略，减少通信跳数。# 使用厂商工具（示例）设置最近邻路由矩阵
hygon_ccd_route –set-matrix –type nearest-neighbor

巨帧（Jumbo Frames）：在集群内部交换机和支持的网卡上启用巨帧（MTU=9000），减少数据包封装和解封装的开销，提升大块数据传输效率。

优化NCCL参数：针对海光平台，可能需要微调NCCL（NVIDIA集体通信库）的环境变量，以找到最佳的通信算法和缓冲区大小。

5. 性能验证与监控闭环

优化不是一劳永逸的，必须建立验证和监控的闭环。

建立性能基线：在应用优化前，后，使用相同的工具和负载进行测试。

网络带宽测试：iperf3 或 netperf。# 服务端
iperf3 -s
# 客户端
iperf3 -c <server_ip> -t 30 -P 8 # 使用8个并行流测试总吞吐
延迟测试：ping（ICMP延迟），或更专业的sockperf（应用层延迟）。sockperf ping-pong -i <server_ip> –tcp -m 64 -t 30
RDMA性能测试：使用ibv_rc_pingpong（延迟）和ib_write_bw（带宽）。

实施持续监控：

系统级：使用sar -n DEV 1监控网卡吞吐、包量、错误计数。使用numastat监控跨NUMA内存访问情况。
中断监控：cat /proc/interrupts | grep -E \\"CPU|eth0\\" 观察中断是否均匀分布在绑定的核心上。
专用工具：利用国产监控生态，如浪潮Insiight或曙光HAEye，它们可能集成了对海光平台PMU（性能监控单元）的深度支持，能提供CCD间流量、缓存命中率等更细粒度的洞察。

调优是一个迭代过程。每次更改配置后，运行基准测试，观察监控指标，分析是否达到预期效果。记录下每次变更和结果，形成属于你自己硬件环境的最佳实践手册。记住，没有放之四海而皆准的“银弹”参数，最适合你业务负载的配置，永远需要通过严谨的测试来获得。

手把手教你优化海光服务器网卡性能（含Hygon CPU实战配置）