云计算百科
云计算领域专业知识百科平台

AI大模型服务器规划方案

  • 项目概述

1.1项目背景

随着AI大模型技术的快速发展和企业智能化转型的加速,公司现有服务器在支撑大模型训练与推理方面已显不足。为确保未来2–3年AI业务的稳定发展与技术竞争力,亟需对现有服务器资源进行科学评估与规划,提出可落地的升级与采购方案。

1.2项目目标

  • 提升AI大模型训练与推理能力,支持更大参数规模的模型部署。
  • 确保系统在高并发、长时间运行下的稳定性与数据准确性。
  • 兼顾成本与性能,提供分阶段、可扩展的解决方案。
  • 建立符合企业级标准的AI基础设施,支撑未来业务扩展。
    • 现状分析

    现有服务器资源概况

    公司服务器资源

    服务用途

    CPU(核)

    内存(GB)

    磁盘(TB)

    IP地址

    容量

    已使用

    使用率

    容量

    已使用

    使用率

    容量

    已使用

    使用率

    生产环境(主)

    46.7

    6.6

    14.2%

    128

    112.8

    88.1%

    30.0

    9.9

    33.0%

    192.168.211.181

    测试服务器

    26.3

    8.5

    32.2%

    96

    85.9

    89.5%

    7.6

    3.8

    50.6%

    192.168.211.191

    生产环境(备)

    16.8

    7.5

    44.9%

    256

    194.5

    76.0%

    56.4

    43.9

    77.8%

    192.168.211.195

    图形跑模

    12.0

    1.8

    14.8%

    64

    21.5

    33.6%

    30.0

    26.9

    89.5%

    192.168.211.200

    由以上服务器资源使用情况可知:181服务器、191服务器、195服务器此三台服务器CPU余量较充足,磁盘可用容量尚可,但内存余量紧张,三台服务器总内存480GB,已使用393.2GB,剩余可用内存86.8GB,三台服务器内存可用量分别为:15.2GB、10.1GB、61.5GB。

    其他考虑,考虑此三台服务器的功耗、插槽规格、散热以及服务器固件与显卡版本的兼容性,对业务的影响,不适合扩展安装GPU显卡。

    • AI大模型测试与性能评估

    3.1测试时间

    2025.12.24   9:00~9:15

    3.2测试人员

    公司全体员工

    3.3测试对象

    部署在200服务器上的AI智能问答模型http://192.168.211.200/chat/ZUOd0J8gPZ6vSZ13

    3.4测试数据分析

    (测试详情见下表“AI智能问答-在线测试”)

    根据测试情况看,服务器硬件资源分析如下

  • CPU使用情况分析:CPU使用率基本在10%-20%之间,峰值36.7%(9:12:44),整体CPU负载不高,说明系统CPU瓶颈不明显。
  • 内存使用情况分析:内存使用率稳定在33%-35%之间(约21-22GB),内存资源充足。
  • GPU使用情况分析:GPU计算核心使用率,波动极大,从3%到100%,多个时间段达到90%以上,频繁出现低使用率(3%-29%)的波谷;显存使用率,相对稳定在61.4%-72.1%,表明模型已加载到显存中。
  • 3.5测试结论

    (1)当前服务器CPU、内存硬件资源满足测试要求;

    (2)服务器GPU使用率频繁达到100%,计算能力不足,8GB显存使用率72.1%接近上限,限制更大模型的部署。

    AI智能问答-在线测试

    测试对象

    http://192.168.101.200/chat/ZUOd0J8gPZ6vSZ13

    测试时间

    2025.12.24  9:00~9:15

    服务器参数

    CPU

    Intel i7-12700KF 12核20线程

    磁盘

    1TB SSD+29TB

    内存

    64GB DDR4(4*16GB,3200MHZ)

    网卡

    千兆以太网

    GPU

    NVIDIA RTX 3070 Ti  8GB

    (256位宽)

    系统

    windows 11专业版

    时间戳

    CPU使用率

    内存使用率

    GPU使用率

    并发用户数(个)

    计算核心

    显存

    9:00:02

    11.5

    33.9

    29

    61.4

    \\

    9:00:32

    11.6

    32.9

    3

    8.6

    \\

    9:01:14

    14.5

    34.6

    95

    72.1

    \\

    9:01:30

    11.9

    34.6

    92

    72.1

    \\

    9:02:00

    14.7

    34.6

    100

    72.1

    \\

    9:02:30

    13.9

    34.5

    93

    72.1

    \\

    9:03:00

    18.1

    34

    13

    45.2

    \\

    9:03:30

    12.3

    34.6

    94

    72.1

    \\

    9:04:01

    12.2

    34.6

    93

    72.1

    \\

    9:04:25

    12.8

    34.6

    93

    72.1

    \\

    9:06:30

    11.2

    34.6

    92

    72.1

    \\

    9:07:39

    12.9

    34

    51

    69.7

    \\

    9:08:01

    13.7

    33.6

    11

    61.4

    \\

    9:08:28

    14.1

    34.1

    88

    69.8

    \\

    9:09:38

    13.3

    34.7

    98

    71.7

    \\

    9:10:01

    10.8

    34.8

    93

    72.1

    \\

    9:11:52

    21.8

    34.1

    3

    52.2

    \\

    9:12:07

    6.9

    34.2

    3

    69.8

    \\

    9:12:22

    9.9

    35

    6

    10.9

    \\

    9:12:44

    36.7

    33.1

    3

    52.2

    \\

    9:13:02

    12.3

    34.6

    86

    72.1

    \\

    9:13:13

    13.5

    34.2

    29

    61.4

    \\

    9:13:45

    10.2

    34.1

    92

    69.8

    \\

    9:13:58

    10.2

    34.8

    100

    72.1

    \\

    9:14:09

    12.2

    33.8

    3

    10.9

    \\

    9:14:17

    9.9

    34.7

    99

    72.1

    \\

    9:14:43

    10.5

    34.8

    92

    72.1

    \\

    9:15:02

    6.1

    34.2

    3

    69.8

    \\

    9:15:22

    14.3

    33.8

    35

    52.1

    \\

    9:15:26

    14.7

    34.2

    93

    69.7

    \\

    四.规划实施方案

    4-1.方案分类

    根据公司当前情况,提供两个方案:

    方案一:“公司内部开发测试用13B~34B参数轻量级AI模型”

    实现方式:采购替换显卡为NVIDIA 4090 24GB,电源替换为1000W以上ATX 3.0规范金牌电源,优化散热

    方案二:“匹配未来市场70B以上参数级别轻中量级AI模型”

    实现方式:采购全新AI服务器整机,主要配置:NVIDIA A100 80GB PCle、Intel Xeon Silver 4316(同级别)、256GB+DDR5 ECC内存、企业级NVMe与RAID存储

    4-2.核心配件GPU参数与性能对比

    显卡参数对比

                          参数规格

    NVIDIA GeForce RTX 4090 24GB (涡轮版)

    NVIDIA A100 80GB (PCIe)

    说明

    核心规格

    核心工艺

     TSMC 4N (4nm)

    TSMC 7N (7nm)

    核心用途不同:4090核心专为图形和32位计算优化;A100核心包含大量专用Tensor Core和FP64双精度核心,为科学计算和AI优化

    CUDA核心数

    16384

    6912 个 (FP64: 3456个)

    核心频率

    2520MHz(峰值)

    1410GHz(峰值)

    显存系统

    容量

    24 GB

    80 GB

    80GB容量可以轻松加载一个完整的70B(700亿)参数模型,支持高并发任务、超长文本处理

    位宽

    384-bit

    5120-bit (通过HBM堆叠)

    HBM的极致位宽带来了巨大带宽优势。

    带宽

    约1.0 TB/s

    2.0 TB/s

    A100带宽是4090的2倍,对于需要频繁读写显存的大模型推理和训练,这是决定性性能因素。

    类型

    GDDR6X (无ECC)

    HBM2e (带ECC)

    最核心差异。HBM2e拥有远超GDDR6X的带宽和能效,是A100处理超大规模模型和数据集的根本。A100的ECC能纠正数据错误,确保7×24小时计算绝对准确;4090无此功能,长时间运行可能产生静默错误。  

                       功耗

    450W

    300W

     

                      电源接口

    8-pin*3

    标准PCIe 8-pin接口

     

                      推荐电源

    850W

    不低于1100W

                    

                    尺寸

    267mm*111mm*38mm

    267mm*111.15mm (全高)

     

    最              大分辨率

    7680*4320

        

                   输出

    DP*3 /HDMI*1

     

                    总线接口

    PCI Express 4.0 x16

    PCI Express 4.0 x16

     

    显卡性能对比

    类别

    NVIDIA GeForce RTX 4090 24GB

    NVIDIA A100 80GB (PCIe)

    可靠性设计

    为间歇性高负载(如游戏、渲染)设计,元器件寿命和散热目标非7×24小时满负载

    为7×24小时不间断满负载运行设计,所有元件(电容、电感、散热)均采用更高工业标准

    数据准确性

    无ECC显存。显存位翻转会产生静默错误,导致AI推理出现不可预测的乱码或错误答案

    全系标配ECC显存。自动检测并纠正显存错误,确保计算过程和数据输出的绝对准确

    企业级支持

    NVIDIA不提供数据中心级别的驱动支持或技术服务。遇到问题需自行解决或依赖社区

    提供数据中心驱动和企业级技术响应(通过服务器厂商)。出现兼容性、性能问题时,有明确的支持路径

    虚拟化与 容器化

    在GPU虚拟化(vGPU)和容器化部署的支持上非常有限或不稳定

    对NVIDIA vGPU, MIG(多实例GPU) 等技术有完善支持,方便实现资源隔离、多模型部署

    采购与合规

    作为消费电子产品,通常无法纳入政企采购目录,难以提供符合审计要求的供货证明、维保协议和资产化管理

    作为企业级固定资产,可通过服务器厂商提供完整的合规采购流程、发票、原厂维保合同

    4-3.现有服务器上升级的可行性

    实施操作:更换200服务器的显卡为NVIDIA 4090 24GB,电源为1000W以上ATX 3.0规范金牌电源(带原生12VHPWR(16-pin)接口)。

    升级后预期效果:可测试模型大小由7B参数模型变为可轻松运行13B~34B模型,推理速度极大加快,可支持更长的对话历史和文档检索,可小规模并发压力测试,可验证接近生产环境的模型效果。

    风险隐患:数据静默错误,NVIDIA RTX 4090 24GB显卡不支持ECC纠错,长时间AI推理中,显存或内存的位翻转可能产生无法察觉的错误结果;可扩展性,主板限制,无法加装第2块显卡。其他机箱散热与电源供电方面对稳定性的影响。

    200服务器现状

    服务器主机

    品牌型号

    主板硬件规格

    当前硬件配置

    剩余可扩展配置

    管理IP

    图形跑模

    主板:

    微星PRO Z690-P DDR4

    • CPU支持:兼容第12/13/14代Intel® Core™ LGA 1700插槽
    • 内存配置:4个DDR4 DIMM插槽,最大支持128GB容量,支持双通道模式
    • 扩展与存储:提供1个PCIe 5.0 x16插槽、2个M.2 Gen4 x4插槽、4个SATA 6Gbps接口

    CPUIntel i7-12700KF 12核20线程 内存:64GB DDR4(4*16GB,3200MHZ)

    GPUNVIDIA RTX 3070 Ti  8GB 存储:1TB SSD+29TB

    CPU:无插槽 内存:无插槽

    GPU:无插槽 存储:1个M.2 Gen4 x4插槽

    192.168.101.200

    GPU显卡替换选型

    类型

    品牌型号

    规格参数

    安装位置

    购买链接

    数量(条)

    价格 (元)

    显卡

    NVIDIA GeForce RTX 4090 24GB (涡轮版)

    核心数:16384个

    PCI_E1:PCLe 5.0*16插槽

    1

    21499

    核心频率:2520MHz

    显存容量:24GB

    显存位宽:384-bit

    电源接口:8-pin*3

    推荐电源:850W

    尺寸:267mm*111mm*38mm

    电源

    华硕 (ASUS) ROG-STRIX-1000P AURA

    额定功率:1000W

    机箱

    1

    1496

    接口:1个12VHPWR 16pin+4个 8(6+2)PCI-E接口

    尺寸:长160mm 宽150mm 高86mm

    INTEL规范:ATX3.1

    4-4.购买全新AI服务器整机

    服务器配置:整机,主要配置NVIDIA A100 80GB PCle、Intel Xeon Silver 4316(同级别)、256GB+DDR5 ECC内存、企业级NVMe。

    预期效果:可无损、全精度(FP16/BF16) 运行当前及未来几年主流的 70B参数模型;可稳定支撑 50-150路 的实时对话并发;响应速度在单路请求下可达到亚秒级至数秒级;得益于品牌服务器的ECC内存、冗余电源、企业级硬盘和严格散热设计,可保障 7×24小时 持续稳定运行。

    可扩展性:纵向扩展,可在服务器的另一个空闲GPU插槽中安装第二张A100 80GB,算力翻倍,可处理更高并发。通过NVLink桥接,可尝试将两张卡显存池化,以研究模式运行140B+级别的超大规模模型。存储与内存扩展,增加内存至512GB或1TB,增加NVMe SSD,更大内存可支持更复杂的多模型驻留或向量数据库,组成RAID以提升I/O性能,增加大容量硬盘扩展知识库存储,更快存储能加速模型加载和知识检索,减少响应延迟。

    AI大模型服务器整机选型

    类型

              品牌型号

    规格参数

    数量(个)

    价格(元)

    服务器整机

    浪     浪潮NF5280M6机架式2U服务器

    CPU:Intel Xeon Silver 4316  (20核/2.3GHz)

    2

    45万左右(含税) (以上为实际报价,京东旗舰店无对应产品)

    内存: 32GB DDR4 3200 RDIMM ECC

    8

    显卡:NVIDIA A100 80GB PCIe

    2

    系统存储:960GB SATA固态

    2

    模型存储:1.92TB SSD NVMe

    1

    数据存储:4T SATA 机械硬盘

    2

    阵列卡:PM8204 4G缓存PCIE

    1

    网卡:四口千兆电口网卡PCIE

    1

    电源:1300W

    2

    质保期:3年

     

    D     Dell PowerEdge R7500机架式2U服务器

    处理器:英特尔 至强  4316 2.3GHZ 20C/40T

    1

    21万左右(含税 以上为实际报价京东旗舰店无对应产品

    内存:32GB DDR4 3200 RDIMM ECC

    8

    显卡:NVIDIA A100 80GB PCIe

    1

    数据储存:4T SATA 7.2K 3.5寸企业级

    2

    系统储存:960G 英特尔SATA 2.5寸SSD硬盘

    2

    模型存储:1.92TB NVME固态硬盘

    1

    阵列卡:H755 8G缓存阵列卡

    1 

    网卡:2个千兆电口

    1 

    电源:热插拔电源 1400W

    2 

    服务:三年硬件质保服务

     

              浪潮NF5280M6机架式2U服务器

    CPU:Intel Xeon Silver 4316  (20核/2.3GHz)

    2

    26万左右(含税) (以上为实际报价,京东旗舰店无对应产品)

    内存:64GB DDR4 3200 RDIMM ECC

    4

    显卡:NVIDIA A100 80GB PCIe

    1

    系统存储:960GB SATA SSD

    2

     模型存储:1.92TB SSD NVMe

    1

    数据存储:4T SATA HDD

    2

    阵列卡:PM8204 4G缓存PCIE

    1

    网卡:四口千兆电口网卡PCIE

    1

    电源:1300W

    2

    质保期:3年

     

            数聚红芯H6320 机架式2U服务器

    CPU:Intel Xeon Silver 4316  (20核40线程/2.3GHz)

    2

    20万左右(含税) (以上为实际报价,京东旗舰店无对应产品)

    内存:32GB DDR4 3200 RDIMM ECC

    8

    显卡:联科Linkupai A100 80GB PCIe定制卡

    2

    系统存储:960GB SATA固态

    2

    模型存储:1.92TB SSD NVMe

    1

    数据存储:4T SATA 机械硬盘

    2

    网卡:双口千兆电口网卡OCP

    1

    电源:1500W

    1

    质保期:4年

     

    组装机架式4U服务器

    CPU:AMD epyc 7543,32核(64线程)/ 2.8~3.7Ghz/7nm/SP3插槽

    1

     ¥5,400.00

    SP3 塔式铜管散热器

    1

     ¥260.00

    技嘉MZ72-HB双路主板(参数如下):

    1

     ¥4,750.00

    CPU支持:双路EPYC 7002/7003系列 内存插槽:16*DDR4 DIMM(最大2TB) PCIe插槽:3* PCIe 4.0 *16、           2* PCIe 4.0 *8 M.2接口:1*M.2 2280( PCIe 4.0 *4) SATA接口:16* SATA3 网络:2* 10Gbe RJ45 + 1*管理网口 其他:IPMI、支持NVLink、支持PCIe拆分

    内存:三星32GB/DDR4 ECC/3200MHz/1.2V

    4

     ¥2,100.00

    英伟达Tesla A100 80G(定制版): 显存:80GB HBM2e with ECC 带宽:2.0 TB/s CUDA核心:6912个 PCIe版本:4.0 *16 支持NVLink(需桥接器)

    1

    ¥57,000.00

    固态存储:三星990Pro  2T m2 2280,NVMe SSD/M.2 PCIe 4.0 *4

    1

     ¥1,978.00

    数据储存:希捷16T企业盘,转速7200 RPM、256MB缓存、SATA 6Gb/s

    1

     ¥3,900.00

    电源:长城 1600W,3200W(冗余)可支持未来增加2~3张A100

    2

     ¥-  

    空间充足、散热好、支持扩展卡多

    1

     ¥-  

    风扇:尺寸120mm

    4

     ¥-  

    合计8.4万元

    赞(0)
    未经允许不得转载:网硕互联帮助中心 » AI大模型服务器规划方案
    分享到: 更多 (0)

    评论 抢沙发

    评论前必须登录!