云计算百科
云计算领域专业知识百科平台

基于国产PCIE4.0/5.0 SWITCH 的AI服务器PCIe拓扑及12Gb SAS Expander多盘位背板应用研究(二)

2.2
拓扑特性分析

BalanceMode
的配置将
GPU
平均挂接 在
2


CPU

,GPU PCIe
总的上行带宽较高
;Com

monMode
在一定程度上能够满足
GPU
之间点对

点的通信
,
同时可保障足够的
CPU

GPU
之间


I/O
带宽
;Cascade Mode
只有一条
×16
链路
,

但由于
GPU
之间通过
PCIeSwitch
串接
,
提升了

点对点的性能
,
降低了延迟

对于双精度浮点运算
,

GPU
计算需要使用

处理器与主内存
,
由于
Dualroot
的拓扑上行带宽

与内存使用率提升
,
其性能会优于
Singleroot

拓扑

对于深度学习推理性能来说
,
具备并行计算能

力的
GPU
可以基于训练过的网络进行数十亿次

的计算
,
从而快速识别出已知的模式或目标

不同

拓扑下
GPU
的互联关系不同
,GPU
之间的沟通会

影响深度学习推理的整体性能

3
实验及结果分析

3.1
实验装置

为探究在不同应用条件下
3种拓扑的性能差


,
实验使用自研
AI
服务器
(NF5468M5)
搭建机

台进行测试

装置使用
2

CPU,
规格为
IntelⓇ

XeonⓇ Gold6142,
主频为
2.60GHz;
使用
12

DDR4
内存
,
容量为
32GB,
主频为
2666 MHz;
使


8

GPU,
规格为
NVIDIA Tesla-V100_32G。

3.2

实验结果分析

3.2.1

点对点带宽与延迟

对于
GPU

P2P
性能
,
可以使用带宽与延迟

来衡量
。PCIe3.0
的带宽为
16GB/s,
理想状况


,
实际应用中带宽可以达到理论带宽的
80%


。PCIe
的延迟主要取决于
PCIeTrace
的长度

走线路径 上 的 器 件 及 是 否 经 过
UPI、
是 否 跨
RC

(RootComplex)

如图
4
所示
,

BalanceMode、CascadeMode


CommonMode3
种拓扑中
,
分别测试挂在同一


PCIeSwitch
下的
GPU (
如图
4
中线路
①)
和跨

PCIeSwitch

GPU(
如图
4
中线路
②)
的点对点

带宽与延迟

测试结果如表
1、

2
及图
5
所示

在同一个
PCIeSwitch

,
由于
GPU
之间的

传输距离是一样的
,
所以在点对点回路


,3

拓扑的带宽与延迟结果皆相近
;
对于跨
PCIeSwitc


2

GPU,
由于
CPU
间为
3UPILinks,
其信号

传输速度足够快
,
所以
BalanceMode

Common

Mode
的 结 果 相 近
,
而 对 于
Cascade Mode,
由 于

GPU
之间的沟通只需经过
PCIeSwitch,
传输路径

变短
,
其点对点延迟性能得以提升
;
同时
,
对于
In

telCPU
而言
,
一个
PCIe×16Port
为一个
RC,


RC
之 间 的 通 信 带 宽 比 同 一 个
RC

PCIe

Switch
之间的通信差
,

CascadeMode
的带宽也

得以提升

=========12Gb SAS Expander多盘位背板================

*硬盘热插拔功能;
*灯态支持硬盘上电,读写,报错;
*SPGIO硬盘报错功能;
*硬盘分时启动;
*风扇温度控制;
* I2C(BMC);

赞(0)
未经允许不得转载:网硕互联帮助中心 » 基于国产PCIE4.0/5.0 SWITCH 的AI服务器PCIe拓扑及12Gb SAS Expander多盘位背板应用研究(二)
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!