A10服务器使用vllm推理框架成功运行Qwen3大模型

1.下载Qwen3大模型：

git clone https://www.modelscope.cn/Qwen/Qwen3–1.7B.git

放在服务器的/mnt/workspace/Qwen3-1.7B目录下。

2.创建python虚拟环境：

python3 –m venv venv1
source venv1/bin/activate

3.安装vllm推理框架

pip install vllm

在这里插入图片描述

4.启动vllm服务

CUDA_VISIBLE_DEVICES=0 \\
python3 –m vllm.entrypoints.openai.api_server \\
––model /mnt/workspace/Qwen3–1.7B \\
––served–model–name qwen3 \\
––gpu–memory–utilization=0.85 \\
––tensor–parallel–size 1 \\
––trust–remote–code

注意以下几点：
（1）如果不指定端口，则vllm默认端口是8000；
（2）参数gpu-memory-utilization必须加上，不然可能会报oom显存不足的错误；
（3）tensor-parallel-size的个数，取决于使用的GPU数量。
启动需加载1-2分钟左右，启动结果如下：
在这里插入图片描述

5.查询大模型

curl http://localhost:8000/v1/models

查询到名字为qwen3的模型：
在这里插入图片描述

6.调用大模型服务

curl http://localhost:8000/v1/chat/completions –H "Content-Type: application/json" –d '{
"model": "qwen3",
"messages": [
{"role": "user", "content": "介绍一下你自己"}
],
"temperature": 0.7,
"top_p": 0.8,
"top_k": 20,
"max_tokens": 128,
"presence_penalty": 1.5,
"chat_template_kwargs": {"enable_thinking": false}
}'

返回结果：
在这里插入图片描述

7.显卡使用情况

在这里插入图片描述

A10服务器使用vllm推理框架成功运行Qwen3大模型

1.下载Qwen3大模型：

2.创建python虚拟环境：

3.安装vllm推理框架

4.启动vllm服务

5.查询大模型

6.调用大模型服务

7.显卡使用情况

相关推荐

评论抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

1.下载Qwen3大模型：

2.创建python虚拟环境：

3.安装vllm推理框架

4.启动vllm服务

5.查询大模型

6.调用大模型服务

7.显卡使用情况

相关推荐

评论 抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

评论抢沙发