AI大模型服务器规划方案

项目概述

1.1项目背景

随着AI大模型技术的快速发展和企业智能化转型的加速，公司现有服务器在支撑大模型训练与推理方面已显不足。为确保未来2–3年AI业务的稳定发展与技术竞争力，亟需对现有服务器资源进行科学评估与规划，提出可落地的升级与采购方案。

1.2项目目标

提升AI大模型训练与推理能力，支持更大参数规模的模型部署。

确保系统在高并发、长时间运行下的稳定性与数据准确性。

兼顾成本与性能，提供分阶段、可扩展的解决方案。

建立符合企业级标准的AI基础设施，支撑未来业务扩展。

现状分析

现有服务器资源概况

公司服务器资源
服务用途	CPU（核）			内存（GB）			磁盘（TB）			IP地址
服务用途	容量	已使用	使用率	容量	已使用	使用率	容量	已使用	使用率	IP地址
生产环境（主）	46.7	6.6	14.2%	128	112.8	88.1%	30.0	9.9	33.0%	192.168.211.181
测试服务器	26.3	8.5	32.2%	96	85.9	89.5%	7.6	3.8	50.6%	192.168.211.191
生产环境（备）	16.8	7.5	44.9%	256	194.5	76.0%	56.4	43.9	77.8%	192.168.211.195
图形跑模	12.0	1.8	14.8%	64	21.5	33.6%	30.0	26.9	89.5%	192.168.211.200

由以上服务器资源使用情况可知：181服务器、191服务器、195服务器此三台服务器CPU余量较充足，磁盘可用容量尚可，但内存余量紧张，三台服务器总内存480GB，已使用393.2GB，剩余可用内存86.8GB，三台服务器内存可用量分别为：15.2GB、10.1GB、61.5GB。

其他考虑，考虑此三台服务器的功耗、插槽规格、散热以及服务器固件与显卡版本的兼容性，对业务的影响，不适合扩展安装GPU显卡。

AI大模型测试与性能评估

3.1测试时间

2025.12.24 9:00~9:15

3.2测试人员

公司全体员工

3.3测试对象

部署在200服务器上的AI智能问答模型http://192.168.211.200/chat/ZUOd0J8gPZ6vSZ13

3.4测试数据分析

（测试详情见下表“AI智能问答-在线测试”）

根据测试情况看，服务器硬件资源分析如下

CPU使用情况分析：CPU使用率基本在10%-20%之间，峰值36.7%（9:12:44），整体CPU负载不高，说明系统CPU瓶颈不明显。

内存使用情况分析：内存使用率稳定在33%-35%之间（约21-22GB），内存资源充足。

GPU使用情况分析：GPU计算核心使用率，波动极大，从3%到100%，多个时间段达到90%以上，频繁出现低使用率（3%-29%）的波谷；显存使用率，相对稳定在61.4%-72.1%，表明模型已加载到显存中。

3.5测试结论

（1）当前服务器CPU、内存硬件资源满足测试要求；

（2）服务器GPU使用率频繁达到100%，计算能力不足，8GB显存使用率72.1%接近上限，限制更大模型的部署。

AI智能问答-在线测试
测试对象	http://192.168.101.200/chat/ZUOd0J8gPZ6vSZ13			测试时间	2025.12.24 9:00~9:15
服务器参数	CPU	Intel i7-12700KF 12核20线程		磁盘	1TB SSD+29TB
	内存	64GB DDR4（4*16GB,3200MHZ）		网卡	千兆以太网
	GPU	NVIDIA RTX 3070 Ti 8GB （256位宽）		系统	windows 11专业版
时间戳	CPU使用率	内存使用率	GPU使用率		并发用户数（个）
时间戳	CPU使用率	内存使用率	计算核心	显存	并发用户数（个）
9:00:02	11.5	33.9	29	61.4	\\
9:00:32	11.6	32.9	3	8.6	\\
9:01:14	14.5	34.6	95	72.1	\\
9:01:30	11.9	34.6	92	72.1	\\
9:02:00	14.7	34.6	100	72.1	\\
9:02:30	13.9	34.5	93	72.1	\\
9:03:00	18.1	34	13	45.2	\\
9:03:30	12.3	34.6	94	72.1	\\
9:04:01	12.2	34.6	93	72.1	\\
9:04:25	12.8	34.6	93	72.1	\\
9:06:30	11.2	34.6	92	72.1	\\
9:07:39	12.9	34	51	69.7	\\
9:08:01	13.7	33.6	11	61.4	\\
9:08:28	14.1	34.1	88	69.8	\\
9:09:38	13.3	34.7	98	71.7	\\
9:10:01	10.8	34.8	93	72.1	\\
9:11:52	21.8	34.1	3	52.2	\\
9:12:07	6.9	34.2	3	69.8	\\
9:12:22	9.9	35	6	10.9	\\
9:12:44	36.7	33.1	3	52.2	\\
9:13:02	12.3	34.6	86	72.1	\\
9:13:13	13.5	34.2	29	61.4	\\
9:13:45	10.2	34.1	92	69.8	\\
9:13:58	10.2	34.8	100	72.1	\\
9:14:09	12.2	33.8	3	10.9	\\
9:14:17	9.9	34.7	99	72.1	\\
9:14:43	10.5	34.8	92	72.1	\\
9:15:02	6.1	34.2	3	69.8	\\
9:15:22	14.3	33.8	35	52.1	\\
9:15:26	14.7	34.2	93	69.7	\\

四．规划实施方案

4-1.方案分类

根据公司当前情况，提供两个方案：

方案一：“公司内部开发测试用13B~34B参数轻量级AI模型”

实现方式：采购替换显卡为NVIDIA 4090 24GB，电源替换为1000W以上ATX 3.0规范金牌电源，优化散热

方案二：“匹配未来市场70B以上参数级别轻中量级AI模型”

实现方式：采购全新AI服务器整机，主要配置：NVIDIA A100 80GB PCle、Intel Xeon Silver 4316（同级别）、256GB+DDR5 ECC内存、企业级NVMe与RAID存储

4-2.核心配件GPU参数与性能对比

显卡参数对比
参数规格		NVIDIA GeForce RTX 4090 24GB (涡轮版)	NVIDIA A100 80GB (PCIe)	说明
核心规格	核心工艺	TSMC 4N (4nm)	TSMC 7N (7nm)	核心用途不同：4090核心专为图形和32位计算优化；A100核心包含大量专用Tensor Core和FP64双精度核心，为科学计算和AI优化
	CUDA核心数	16384个	6912 个 (FP64: 3456个)
	核心频率	2520MHz（峰值）	1410GHz（峰值）
显存系统	容量	24 GB	80 GB	80GB容量可以轻松加载一个完整的70B（700亿）参数模型，支持高并发任务、超长文本处理
	位宽	384-bit	5120-bit (通过HBM堆叠)	HBM的极致位宽带来了巨大带宽优势。
	带宽	约1.0 TB/s	2.0 TB/s	A100带宽是4090的2倍，对于需要频繁读写显存的大模型推理和训练，这是决定性性能因素。
	类型	GDDR6X (无ECC)	HBM2e (带ECC)	最核心差异。HBM2e拥有远超GDDR6X的带宽和能效，是A100处理超大规模模型和数据集的根本。A100的ECC能纠正数据错误，确保7×24小时计算绝对准确；4090无此功能，长时间运行可能产生静默错误。
功耗		450W	300W
电源接口		8-pin*3	标准PCIe 8-pin接口
推荐电源		850W	不低于1100W
尺寸		267mm111mm38mm	267mm*111.15mm (全高)
最大分辨率		7680*4320	无
输出		DP3 /HDMI1	无
总线接口		PCI Express 4.0 x16	PCI Express 4.0 x16
显卡性能对比
类别	NVIDIA GeForce RTX 4090 24GB		NVIDIA A100 80GB (PCIe)
可靠性设计	为间歇性高负载（如游戏、渲染）设计，元器件寿命和散热目标非7×24小时满负载		为7×24小时不间断满负载运行设计，所有元件（电容、电感、散热）均采用更高工业标准
数据准确性	无ECC显存。显存位翻转会产生静默错误，导致AI推理出现不可预测的乱码或错误答案		全系标配ECC显存。自动检测并纠正显存错误，确保计算过程和数据输出的绝对准确
企业级支持	NVIDIA不提供数据中心级别的驱动支持或技术服务。遇到问题需自行解决或依赖社区		提供数据中心驱动和企业级技术响应（通过服务器厂商）。出现兼容性、性能问题时，有明确的支持路径
虚拟化与容器化	在GPU虚拟化（vGPU）和容器化部署的支持上非常有限或不稳定		对NVIDIA vGPU, MIG（多实例GPU）等技术有完善支持，方便实现资源隔离、多模型部署
采购与合规	作为消费电子产品，通常无法纳入政企采购目录，难以提供符合审计要求的供货证明、维保协议和资产化管理		作为企业级固定资产，可通过服务器厂商提供完整的合规采购流程、发票、原厂维保合同

4-3.现有服务器上升级的可行性

实施操作：更换200服务器的显卡为NVIDIA 4090 24GB，电源为1000W以上ATX 3.0规范金牌电源（带原生12VHPWR（16-pin）接口）。

升级后预期效果：可测试模型大小由7B参数模型变为可轻松运行13B~34B模型，推理速度极大加快，可支持更长的对话历史和文档检索，可小规模并发压力测试，可验证接近生产环境的模型效果。

风险隐患：数据静默错误，NVIDIA RTX 4090 24GB显卡不支持ECC纠错，长时间AI推理中，显存或内存的位翻转可能产生无法察觉的错误结果；可扩展性，主板限制，无法加装第2块显卡。其他机箱散热与电源供电方面对稳定性的影响。

200服务器现状
服务器主机	品牌型号	主板硬件规格	当前硬件配置	剩余可扩展配置		管理IP

图形跑模	主板：微星PRO Z690-P DDR4	‌CPU支持‌：兼容第12/13/14代Intel® Core™ LGA 1700插槽 ‌内存配置‌：4个DDR4 DIMM插槽，最大支持128GB容量，支持双通道模式 ‌扩展与存储‌：提供1个PCIe 5.0 x16插槽、2个M.2 Gen4 x4插槽、4个SATA 6Gbps接口	CPU：Intel i7-12700KF 12核20线程内存：64GB DDR4（4*16GB,3200MHZ） GPU：NVIDIA RTX 3070 Ti 8GB 存储：1TB SSD+29TB	CPU：无插槽内存：无插槽 GPU：无插槽存储：1个M.2 Gen4 x4插槽		192.168.101.200







GPU显卡替换选型
类型	品牌型号	规格参数	安装位置	购买链接	数量（条）	价格（元）
显卡	NVIDIA GeForce RTX 4090 24GB (涡轮版)	核心数：16384个	PCI_E1：PCLe 5.0*16插槽		1	21499
		核心频率：2520MHz
		显存容量：24GB
		显存位宽：384-bit
		电源接口：8-pin*3
		推荐电源：850W
		尺寸：267mm111mm38mm
电源	华硕 (ASUS) ROG-STRIX-1000P AURA	额定功率：1000W	机箱		1	1496
		接口：1个12VHPWR 16pin+4个 8（6+2）PCI-E接口
		尺寸：长160mm 宽150mm 高86mm
		INTEL规范：ATX3.1

4-4.购买全新AI服务器整机

服务器配置：整机，主要配置NVIDIA A100 80GB PCle、Intel Xeon Silver 4316（同级别）、256GB+DDR5 ECC内存、企业级NVMe。

预期效果：可无损、全精度（FP16/BF16）运行当前及未来几年主流的 70B参数模型；可稳定支撑 50-150路的实时对话并发；响应速度在单路请求下可达到亚秒级至数秒级；得益于品牌服务器的ECC内存、冗余电源、企业级硬盘和严格散热设计，可保障 7×24小时持续稳定运行。

可扩展性：纵向扩展，可在服务器的另一个空闲GPU插槽中安装第二张A100 80GB，算力翻倍，可处理更高并发。通过NVLink桥接，可尝试将两张卡显存池化，以研究模式运行140B+级别的超大规模模型。存储与内存扩展，增加内存至512GB或1TB，增加NVMe SSD，更大内存可支持更复杂的多模型驻留或向量数据库，组成RAID以提升I/O性能，增加大容量硬盘扩展知识库存储，更快存储能加速模型加载和知识检索，减少响应延迟。

AI大模型服务器整机选型
类型	品牌型号	规格参数	数量（个）	价格（元）
服务器整机	浪浪潮NF5280M6机架式2U服务器	CPU：Intel Xeon Silver 4316 (20核/2.3GHz）	2	45万左右（含税）（以上为实际报价，京东旗舰店无对应产品）
		内存： 32GB DDR4 3200 RDIMM ECC	8
		显卡：NVIDIA A100 80GB PCIe	2
		系统存储：960GB SATA固态	2
		模型存储：1.92TB SSD NVMe	1
		数据存储：4T SATA 机械硬盘	2
		阵列卡：PM8204 4G缓存PCIE	1
		网卡：四口千兆电口网卡PCIE	1
		电源：1300W	2
		质保期：3年
	D Dell PowerEdge R7500机架式2U服务器	处理器：英特尔至强 4316 2.3GHZ 20C/40T	1	21万左右（含税）（以上为实际报价，京东旗舰店无对应产品）
		内存：32GB DDR4 3200 RDIMM ECC	8
		显卡：NVIDIA A100 80GB PCIe	1
		数据储存：4T SATA 7.2K 3.5寸企业级	2
		系统储存：960G 英特尔SATA 2.5寸SSD硬盘	2
		模型存储：1.92TB NVME固态硬盘	1
		阵列卡：H755 8G缓存阵列卡	1
		网卡：2个千兆电口	1
		电源：热插拔电源 1400W	2
		服务：三年硬件质保服务
	浪潮NF5280M6机架式2U服务器器	CPU：Intel Xeon Silver 4316 (20核/2.3GHz）	2	26万左右（含税）（以上为实际报价，京东旗舰店无对应产品）
		内存：64GB DDR4 3200 RDIMM ECC	4
		显卡：NVIDIA A100 80GB PCIe	1
		系统存储：960GB SATA SSD	2
		模型存储：1.92TB SSD NVMe	1
		数据存储：4T SATA HDD	2
		阵列卡：PM8204 4G缓存PCIE	1
		网卡：四口千兆电口网卡PCIE	1
		电源：1300W	2
		质保期：3年
	数聚红芯H6320 机架式2U服务器	CPU：Intel Xeon Silver 4316 (20核40线程/2.3GHz）	2	20万左右（含税）（以上为实际报价，京东旗舰店无对应产品）
		内存：32GB DDR4 3200 RDIMM ECC	8
		显卡：联科Linkupai A100 80GB PCIe定制卡	2
		系统存储：960GB SATA固态	2
		模型存储：1.92TB SSD NVMe	1
		数据存储：4T SATA 机械硬盘	2
		网卡：双口千兆电口网卡OCP	1
		电源：1500W	1
		质保期：4年

组装机架式4U服务器	CPU：AMD epyc 7543，32核(64线程)/ 2.8~3.7Ghz/7nm/SP3插槽	1	￥5,400.00
	SP3 塔式铜管散热器	1	￥260.00
	技嘉MZ72-HB双路主板（参数如下）：	1	￥4,750.00
	CPU支持：双路EPYC 7002/7003系列内存插槽：16DDR4 DIMM（最大2TB） PCIe插槽：3 PCIe 4.0 16、 2 PCIe 4.0 8 M.2接口：1M.2 2280（ PCIe 4.0 4） SATA接口：16 SATA3 网络：2* 10Gbe RJ45 + 1*管理网口其他：IPMI、支持NVLink、支持PCIe拆分	1	￥4,750.00
	内存：三星32GB/DDR4 ECC/3200MHz/1.2V	4	￥2,100.00
	英伟达Tesla A100 80G（定制版）：显存：80GB HBM2e with ECC 带宽：2.0 TB/s CUDA核心：6912个 PCIe版本：4.0 *16 支持NVLink（需桥接器）	1	￥57,000.00
	固态存储：三星990Pro 2T m2 2280，NVMe SSD/M.2 PCIe 4.0 *4	1	￥1,978.00
	数据储存：希捷16T企业盘，转速7200 RPM、256MB缓存、SATA 6Gb/s	1	￥3,900.00
	电源：长城 1600W，3200W（冗余）可支持未来增加2~3张A100	2	￥-
	空间充足、散热好、支持扩展卡多	1	￥-
	风扇：尺寸120mm	4	￥-
合计8.4万元

相关推荐

评论抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章