- 项目概述
1.1项目背景
随着AI大模型技术的快速发展和企业智能化转型的加速,公司现有服务器在支撑大模型训练与推理方面已显不足。为确保未来2–3年AI业务的稳定发展与技术竞争力,亟需对现有服务器资源进行科学评估与规划,提出可落地的升级与采购方案。
1.2项目目标
- 现状分析
现有服务器资源概况
|
公司服务器资源 |
||||||||||
|
服务用途 |
CPU(核) |
内存(GB) |
磁盘(TB) |
IP地址 |
||||||
|
容量 |
已使用 |
使用率 |
容量 |
已使用 |
使用率 |
容量 |
已使用 |
使用率 |
||
|
生产环境(主) |
46.7 |
6.6 |
14.2% |
128 |
112.8 |
88.1% |
30.0 |
9.9 |
33.0% |
192.168.211.181 |
|
测试服务器 |
26.3 |
8.5 |
32.2% |
96 |
85.9 |
89.5% |
7.6 |
3.8 |
50.6% |
192.168.211.191 |
|
生产环境(备) |
16.8 |
7.5 |
44.9% |
256 |
194.5 |
76.0% |
56.4 |
43.9 |
77.8% |
192.168.211.195 |
|
图形跑模 |
12.0 |
1.8 |
14.8% |
64 |
21.5 |
33.6% |
30.0 |
26.9 |
89.5% |
192.168.211.200 |
由以上服务器资源使用情况可知:181服务器、191服务器、195服务器此三台服务器CPU余量较充足,磁盘可用容量尚可,但内存余量紧张,三台服务器总内存480GB,已使用393.2GB,剩余可用内存86.8GB,三台服务器内存可用量分别为:15.2GB、10.1GB、61.5GB。
其他考虑,考虑此三台服务器的功耗、插槽规格、散热以及服务器固件与显卡版本的兼容性,对业务的影响,不适合扩展安装GPU显卡。
- AI大模型测试与性能评估
3.1测试时间
2025.12.24 9:00~9:15
3.2测试人员
公司全体员工
3.3测试对象
部署在200服务器上的AI智能问答模型http://192.168.211.200/chat/ZUOd0J8gPZ6vSZ13
3.4测试数据分析
(测试详情见下表“AI智能问答-在线测试”)
根据测试情况看,服务器硬件资源分析如下
3.5测试结论
(1)当前服务器CPU、内存硬件资源满足测试要求;
(2)服务器GPU使用率频繁达到100%,计算能力不足,8GB显存使用率72.1%接近上限,限制更大模型的部署。
|
AI智能问答-在线测试 |
|||||
|
测试对象 |
http://192.168.101.200/chat/ZUOd0J8gPZ6vSZ13 |
测试时间 |
2025.12.24 9:00~9:15 |
||
|
服务器参数 |
CPU |
Intel i7-12700KF 12核20线程 |
磁盘 |
1TB SSD+29TB |
|
|
内存 |
64GB DDR4(4*16GB,3200MHZ) |
网卡 |
千兆以太网 |
||
|
GPU |
NVIDIA RTX 3070 Ti 8GB (256位宽) |
系统 |
windows 11专业版 |
||
|
时间戳 |
CPU使用率 |
内存使用率 |
GPU使用率 |
并发用户数(个) |
|
|
计算核心 |
显存 |
||||
|
9:00:02 |
11.5 |
33.9 |
29 |
61.4 |
\\ |
|
9:00:32 |
11.6 |
32.9 |
3 |
8.6 |
\\ |
|
9:01:14 |
14.5 |
34.6 |
95 |
72.1 |
\\ |
|
9:01:30 |
11.9 |
34.6 |
92 |
72.1 |
\\ |
|
9:02:00 |
14.7 |
34.6 |
100 |
72.1 |
\\ |
|
9:02:30 |
13.9 |
34.5 |
93 |
72.1 |
\\ |
|
9:03:00 |
18.1 |
34 |
13 |
45.2 |
\\ |
|
9:03:30 |
12.3 |
34.6 |
94 |
72.1 |
\\ |
|
9:04:01 |
12.2 |
34.6 |
93 |
72.1 |
\\ |
|
9:04:25 |
12.8 |
34.6 |
93 |
72.1 |
\\ |
|
9:06:30 |
11.2 |
34.6 |
92 |
72.1 |
\\ |
|
9:07:39 |
12.9 |
34 |
51 |
69.7 |
\\ |
|
9:08:01 |
13.7 |
33.6 |
11 |
61.4 |
\\ |
|
9:08:28 |
14.1 |
34.1 |
88 |
69.8 |
\\ |
|
9:09:38 |
13.3 |
34.7 |
98 |
71.7 |
\\ |
|
9:10:01 |
10.8 |
34.8 |
93 |
72.1 |
\\ |
|
9:11:52 |
21.8 |
34.1 |
3 |
52.2 |
\\ |
|
9:12:07 |
6.9 |
34.2 |
3 |
69.8 |
\\ |
|
9:12:22 |
9.9 |
35 |
6 |
10.9 |
\\ |
|
9:12:44 |
36.7 |
33.1 |
3 |
52.2 |
\\ |
|
9:13:02 |
12.3 |
34.6 |
86 |
72.1 |
\\ |
|
9:13:13 |
13.5 |
34.2 |
29 |
61.4 |
\\ |
|
9:13:45 |
10.2 |
34.1 |
92 |
69.8 |
\\ |
|
9:13:58 |
10.2 |
34.8 |
100 |
72.1 |
\\ |
|
9:14:09 |
12.2 |
33.8 |
3 |
10.9 |
\\ |
|
9:14:17 |
9.9 |
34.7 |
99 |
72.1 |
\\ |
|
9:14:43 |
10.5 |
34.8 |
92 |
72.1 |
\\ |
|
9:15:02 |
6.1 |
34.2 |
3 |
69.8 |
\\ |
|
9:15:22 |
14.3 |
33.8 |
35 |
52.1 |
\\ |
|
9:15:26 |
14.7 |
34.2 |
93 |
69.7 |
\\ |
四.规划实施方案
4-1.方案分类
根据公司当前情况,提供两个方案:
方案一:“公司内部开发测试用13B~34B参数轻量级AI模型”
实现方式:采购替换显卡为NVIDIA 4090 24GB,电源替换为1000W以上ATX 3.0规范金牌电源,优化散热
方案二:“匹配未来市场70B以上参数级别轻中量级AI模型”
实现方式:采购全新AI服务器整机,主要配置:NVIDIA A100 80GB PCle、Intel Xeon Silver 4316(同级别)、256GB+DDR5 ECC内存、企业级NVMe与RAID存储
4-2.核心配件GPU参数与性能对比
|
显卡参数对比 |
||||
|
参数规格 |
NVIDIA GeForce RTX 4090 24GB (涡轮版) |
NVIDIA A100 80GB (PCIe) |
说明 |
|
|
核心规格 |
核心工艺 |
TSMC 4N (4nm) |
TSMC 7N (7nm) |
核心用途不同:4090核心专为图形和32位计算优化;A100核心包含大量专用Tensor Core和FP64双精度核心,为科学计算和AI优化 |
|
CUDA核心数 |
16384个 |
6912 个 (FP64: 3456个) |
||
|
核心频率 |
2520MHz(峰值) |
1410GHz(峰值) |
||
|
显存系统 |
容量 |
24 GB |
80 GB |
80GB容量可以轻松加载一个完整的70B(700亿)参数模型,支持高并发任务、超长文本处理 |
|
位宽 |
384-bit |
5120-bit (通过HBM堆叠) |
HBM的极致位宽带来了巨大带宽优势。 |
|
|
带宽 |
约1.0 TB/s |
2.0 TB/s |
A100带宽是4090的2倍,对于需要频繁读写显存的大模型推理和训练,这是决定性性能因素。 |
|
|
类型 |
GDDR6X (无ECC) |
HBM2e (带ECC) |
最核心差异。HBM2e拥有远超GDDR6X的带宽和能效,是A100处理超大规模模型和数据集的根本。A100的ECC能纠正数据错误,确保7×24小时计算绝对准确;4090无此功能,长时间运行可能产生静默错误。 |
|
|
功耗 |
450W |
300W |
|
|
|
电源接口 |
8-pin*3 |
标准PCIe 8-pin接口 |
|
|
|
推荐电源 |
850W |
不低于1100W |
|
|
|
尺寸 |
267mm*111mm*38mm |
267mm*111.15mm (全高) |
|
|
|
最 大分辨率 |
7680*4320 |
无 |
|
|
|
输出 |
DP*3 /HDMI*1 |
无 |
|
|
|
总线接口 |
PCI Express 4.0 x16 |
PCI Express 4.0 x16 |
|
|
|
显卡性能对比 |
||||
|
类别 |
NVIDIA GeForce RTX 4090 24GB |
NVIDIA A100 80GB (PCIe) |
||
|
可靠性设计 |
为间歇性高负载(如游戏、渲染)设计,元器件寿命和散热目标非7×24小时满负载 |
为7×24小时不间断满负载运行设计,所有元件(电容、电感、散热)均采用更高工业标准 |
||
|
数据准确性 |
无ECC显存。显存位翻转会产生静默错误,导致AI推理出现不可预测的乱码或错误答案 |
全系标配ECC显存。自动检测并纠正显存错误,确保计算过程和数据输出的绝对准确 |
||
|
企业级支持 |
NVIDIA不提供数据中心级别的驱动支持或技术服务。遇到问题需自行解决或依赖社区 |
提供数据中心驱动和企业级技术响应(通过服务器厂商)。出现兼容性、性能问题时,有明确的支持路径 |
||
|
虚拟化与 容器化 |
在GPU虚拟化(vGPU)和容器化部署的支持上非常有限或不稳定 |
对NVIDIA vGPU, MIG(多实例GPU) 等技术有完善支持,方便实现资源隔离、多模型部署 |
||
|
采购与合规 |
作为消费电子产品,通常无法纳入政企采购目录,难以提供符合审计要求的供货证明、维保协议和资产化管理 |
作为企业级固定资产,可通过服务器厂商提供完整的合规采购流程、发票、原厂维保合同 |
||
4-3.现有服务器上升级的可行性
实施操作:更换200服务器的显卡为NVIDIA 4090 24GB,电源为1000W以上ATX 3.0规范金牌电源(带原生12VHPWR(16-pin)接口)。
升级后预期效果:可测试模型大小由7B参数模型变为可轻松运行13B~34B模型,推理速度极大加快,可支持更长的对话历史和文档检索,可小规模并发压力测试,可验证接近生产环境的模型效果。
风险隐患:数据静默错误,NVIDIA RTX 4090 24GB显卡不支持ECC纠错,长时间AI推理中,显存或内存的位翻转可能产生无法察觉的错误结果;可扩展性,主板限制,无法加装第2块显卡。其他机箱散热与电源供电方面对稳定性的影响。
|
200服务器现状 |
|||||||
|
服务器主机 |
品牌型号 |
主板硬件规格 |
当前硬件配置 |
剩余可扩展配置 |
管理IP |
||
|
图形跑模 |
主板: 微星PRO Z690-P DDR4 |
|
CPU:Intel i7-12700KF 12核20线程 内存:64GB DDR4(4*16GB,3200MHZ) GPU:NVIDIA RTX 3070 Ti 8GB 存储:1TB SSD+29TB |
CPU:无插槽 内存:无插槽 GPU:无插槽 存储:1个M.2 Gen4 x4插槽 |
192.168.101.200 |
||
|
GPU显卡替换选型 |
|||||||
|
类型 |
品牌型号 |
规格参数 |
安装位置 |
购买链接 |
数量(条) |
价格 (元) |
|
|
显卡 |
NVIDIA GeForce RTX 4090 24GB (涡轮版) |
核心数:16384个 |
PCI_E1:PCLe 5.0*16插槽 |
1 |
21499 |
||
|
核心频率:2520MHz |
|||||||
|
显存容量:24GB |
|||||||
|
显存位宽:384-bit |
|||||||
|
电源接口:8-pin*3 |
|||||||
|
推荐电源:850W |
|||||||
|
尺寸:267mm*111mm*38mm |
|||||||
|
电源 |
华硕 (ASUS) ROG-STRIX-1000P AURA |
额定功率:1000W |
机箱 |
1 |
1496 |
||
|
接口:1个12VHPWR 16pin+4个 8(6+2)PCI-E接口 |
|||||||
|
尺寸:长160mm 宽150mm 高86mm |
|||||||
|
INTEL规范:ATX3.1 |
|||||||
4-4.购买全新AI服务器整机
服务器配置:整机,主要配置NVIDIA A100 80GB PCle、Intel Xeon Silver 4316(同级别)、256GB+DDR5 ECC内存、企业级NVMe。
预期效果:可无损、全精度(FP16/BF16) 运行当前及未来几年主流的 70B参数模型;可稳定支撑 50-150路 的实时对话并发;响应速度在单路请求下可达到亚秒级至数秒级;得益于品牌服务器的ECC内存、冗余电源、企业级硬盘和严格散热设计,可保障 7×24小时 持续稳定运行。
可扩展性:纵向扩展,可在服务器的另一个空闲GPU插槽中安装第二张A100 80GB,算力翻倍,可处理更高并发。通过NVLink桥接,可尝试将两张卡显存池化,以研究模式运行140B+级别的超大规模模型。存储与内存扩展,增加内存至512GB或1TB,增加NVMe SSD,更大内存可支持更复杂的多模型驻留或向量数据库,组成RAID以提升I/O性能,增加大容量硬盘扩展知识库存储,更快存储能加速模型加载和知识检索,减少响应延迟。
|
AI大模型服务器整机选型 |
|||||
|
类型 |
品牌型号 |
规格参数 |
数量(个) |
价格(元) |
|
|
服务器整机 |
浪 浪潮NF5280M6机架式2U服务器 |
CPU:Intel Xeon Silver 4316 (20核/2.3GHz) |
2 |
45万左右(含税) (以上为实际报价,京东旗舰店无对应产品) |
|
|
内存: 32GB DDR4 3200 RDIMM ECC |
8 |
||||
|
显卡:NVIDIA A100 80GB PCIe |
2 |
||||
|
系统存储:960GB SATA固态 |
2 |
||||
|
模型存储:1.92TB SSD NVMe |
1 |
||||
|
数据存储:4T SATA 机械硬盘 |
2 |
||||
|
阵列卡:PM8204 4G缓存PCIE |
1 |
||||
|
网卡:四口千兆电口网卡PCIE |
1 |
||||
|
电源:1300W |
2 |
||||
|
质保期:3年 |
|
||||
|
D Dell PowerEdge R7500机架式2U服务器 |
处理器:英特尔 至强 4316 2.3GHZ 20C/40T |
1 |
21万左右(含税) (以上为实际报价,京东旗舰店无对应产品) |
||
|
内存:32GB DDR4 3200 RDIMM ECC |
8 |
||||
|
显卡:NVIDIA A100 80GB PCIe |
1 |
||||
|
数据储存:4T SATA 7.2K 3.5寸企业级 |
2 |
||||
|
系统储存:960G 英特尔SATA 2.5寸SSD硬盘 |
2 |
||||
|
模型存储:1.92TB NVME固态硬盘 |
1 |
||||
|
阵列卡:H755 8G缓存阵列卡 |
1 |
||||
|
网卡:2个千兆电口 |
1 |
||||
|
电源:热插拔电源 1400W |
2 |
||||
|
服务:三年硬件质保服务 |
|
||||
|
浪潮NF5280M6机架式2U服务器 器 |
CPU:Intel Xeon Silver 4316 (20核/2.3GHz) |
2 |
26万左右(含税) (以上为实际报价,京东旗舰店无对应产品) |
||
|
内存:64GB DDR4 3200 RDIMM ECC |
4 |
||||
|
显卡:NVIDIA A100 80GB PCIe |
1 |
||||
|
系统存储:960GB SATA SSD |
2 |
||||
|
模型存储:1.92TB SSD NVMe |
1 |
||||
|
数据存储:4T SATA HDD |
2 |
||||
|
阵列卡:PM8204 4G缓存PCIE |
1 |
||||
|
网卡:四口千兆电口网卡PCIE |
1 |
||||
|
电源:1300W |
2 |
||||
|
质保期:3年 |
|
||||
|
数聚红芯H6320 机架式2U服务器 |
CPU:Intel Xeon Silver 4316 (20核40线程/2.3GHz) |
2 |
20万左右(含税) (以上为实际报价,京东旗舰店无对应产品) |
||
|
内存:32GB DDR4 3200 RDIMM ECC |
8 |
||||
|
显卡:联科Linkupai A100 80GB PCIe定制卡 |
2 |
||||
|
系统存储:960GB SATA固态 |
2 |
||||
|
模型存储:1.92TB SSD NVMe |
1 |
||||
|
数据存储:4T SATA 机械硬盘 |
2 |
||||
|
网卡:双口千兆电口网卡OCP |
1 |
||||
|
电源:1500W |
1 |
||||
|
质保期:4年 |
|
||||
|
组装机架式4U服务器 |
CPU:AMD epyc 7543,32核(64线程)/ 2.8~3.7Ghz/7nm/SP3插槽 |
1 |
¥5,400.00 |
|
SP3 塔式铜管散热器 |
1 |
¥260.00 |
|
|
技嘉MZ72-HB双路主板(参数如下): |
1 |
¥4,750.00 |
|
|
CPU支持:双路EPYC 7002/7003系列 内存插槽:16*DDR4 DIMM(最大2TB) PCIe插槽:3* PCIe 4.0 *16、 2* PCIe 4.0 *8 M.2接口:1*M.2 2280( PCIe 4.0 *4) SATA接口:16* SATA3 网络:2* 10Gbe RJ45 + 1*管理网口 其他:IPMI、支持NVLink、支持PCIe拆分 |
|||
|
内存:三星32GB/DDR4 ECC/3200MHz/1.2V |
4 |
¥2,100.00 |
|
|
英伟达Tesla A100 80G(定制版): 显存:80GB HBM2e with ECC 带宽:2.0 TB/s CUDA核心:6912个 PCIe版本:4.0 *16 支持NVLink(需桥接器) |
1 |
¥57,000.00 |
|
|
固态存储:三星990Pro 2T m2 2280,NVMe SSD/M.2 PCIe 4.0 *4 |
1 |
¥1,978.00 |
|
|
数据储存:希捷16T企业盘,转速7200 RPM、256MB缓存、SATA 6Gb/s |
1 |
¥3,900.00 |
|
|
电源:长城 1600W,3200W(冗余)可支持未来增加2~3张A100 |
2 |
¥- |
|
|
空间充足、散热好、支持扩展卡多 |
1 |
¥- |
|
|
风扇:尺寸120mm |
4 |
¥- |
|
|
合计8.4万元 |
|||



网硕互联帮助中心



评论前必须登录!
注册