基于昇腾910B服务器DeepSeek-R1-0528权重FP8转BF16精度

基于昇腾910B服务器目前不支持大模型FP8精度推理，因此需进行精度转换，将DeepSeek-R1-0528权重FP8精度转BF16精度。

MindIE推理镜像下载

（1）mindie镜像昇腾镜像仓库下载，地址：https://www.hiascend.com/developer/ascendhub；

（2）搜索mindie，点击进入下载页面；

（3）选择合适的系统架构及版本MindIE镜像，镜像概述如下图所示：

（4）申请权限，并下载mindie镜像，下载镜像步骤如下图所示：

模型权重精度转换

（1）下载权重转换工具

git clone https://gitee.com/ascend/ModelZoo-PyTorch.git

（2）启动容器，启动推理镜像容器的示例命令如下所示：

docker run -itd –privileged –name=deepseek –net=host –shm-size 500g \\

–device=/dev/davinci0 –device=/dev/davinci1 –device=/dev/davinci2 \\

–device=/dev/davinci3 –device=/dev/davinci4 –device=/dev/davinci5 \\

–device=/dev/davinci6 –device=/dev/davinci7 –device=/dev/davinci_manager \\

–device=/dev/hisi_hdc –device /dev/devmm_svm \\

-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \\

-v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \\

-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \\

-v /usr/local/sbin:/usr/local/sbin \\

-v /etc/hccn.conf:/etc/hccn.conf \\

-v /usr/local/dcmi:/usr/local/dcmi \\

-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \\

-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \\

-v /code:/code \\

-v /models:/models swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie:2.xx-800I-A2-py311-openeuler24.03-lts bash

注：swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie:2.xx-800I-A2-py311-openeuler24.03-lts为示例镜像版本，可以选择2.xx版本的MindIE镜像进行权重精度转换。

（3）转换权重精度

1）更改模型文件执行权限，示例命令如下：

chmod -R 750 /path-to-weights/DeepSeek-R1-0528

2）切换到模型代码对应的权重转换路径，示例如下：

cd ModelZoo-PyTorch\\MindIE\\LLM\\DeepSeek\\DeepSeek-V2\\NPU_inference

3）模型权重精度转换，示例命令如下：

python fp8_cast_bf16.py –input-fp8-hf-path /path/to/DeepSeek-R1 –output-bf16-hf-path /path/to/deepseek-R1-bf16

注意事项：

（1）/path/to/DeepSeek-R1 表示DeepSeek-R1-0528原始权重路径，/path/to/deepseek-R1-bf16 表示权重精度转换后的新权重路径；

（2）由于模型权重较大，请确保您的磁盘有足够的空间放下所有权重，例如DeepSeek-R1-0528在转换前权重约为640G左右，在转换后权重约为1.3T左右，推理任务时，也请确保您的设备有足够的内存加载模型权重，并为推理计算预留空间，DeepSeek-R1-0528模型权重较大，量化权重生成时间较久，大概需花费2小时左右。

（3）使用DeepSeek-R1-0528 BF16精度进行推理时，新生成DeepSeek-R1-0528 BF16精度权重仅包含model.safetensors.index.json等权重文件，需从原DeepSeek-R1-0528 FP8权重文件夹中将config.json、tokenizer.json、tokenizer_config.json等配置文件复制传入到新的DeepSeek-R1-BF16权重文件夹下，再进行推理。

基于昇腾910B服务器DeepSeek-R1-0528权重FP8转BF16精度

MindIE推理镜像下载

模型权重精度转换

注意事项：

相关推荐

评论抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

MindIE推理镜像下载

模型权重精度转换

注意事项：

相关推荐

评论 抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

评论抢沙发