一、常用开源大语言模型对比(LLM)
1. 主流通用 LLM:怎么选?
场景:对话、写作、问答、分析、RAG、大部分通用应用。
|
模型家族 |
代表型号(开源权重) |
综合实力 & 特点 |
适合你在什么场景用 |
|
Qwen(通义千问,阿里) |
Qwen2 / Qwen2.5 / Qwen3-235B-A22B 等 |
在斯坦福 HELM / MMLU 等权威榜单上,Qwen2 / Qwen3 系列是目前最强的开源模型之一,多次压过 Llama 系列;在 Hugging Face 开源榜单中,基于 Qwen 的衍生模型数量和下载量长期第一,[HF 官方统计称 Qwen 衍生模型已 20 万+、下载量 10 亿+,稳居全球开源 TOP1。中文能力尤其强,英文和多语言也很亮眼。 |
中文为主 + 有一定英文/多语需求;公司/团队想要跟着“开源主流生态”走,优先考虑 Qwen 系列。 |
|
Llama(Meta) |
Llama 3 / Llama 4 Scout / Maverick / Behemoth |
Llama 一直是开源 LLM 的“默认基准”。Llama 3 时代同体量表现极强;Llama 4 又在多模态和长上下文上大幅升级,官方宣称 Llama 4 Behemoth 在多个 STEM(理工)基准上超 GPT4.5 等闭源模型,多模态、长上下文(最高到 10M tokens)也非常拔尖。 |
需要国际生态、兼容性和文档(英文社区、工具最多),或要做多模态(图文)+ 长文档,Llama 4 是目前最保险的选择之一。 |
|
DeepSeek(深度求索) |
DeepSeekV3 / V3.2 / R1 / V4(部分开源权重) |
DeepSeek 系列在数学推理、代码和复杂推理任务上非常激进。公开数据表明:DeepSeekV3.2 在 MATH500、HumanEval 等难度高的数学和代码基准上达到金牌水平,多次被英文媒体称为“在开源端打破闭源垄断”的代表。R1 / V4 更偏“思维链式推理”(reasoning models)。 |
需要极强推理和代码能力(例如自动刷题、科研推导、复杂代码重构),DeepSeek 系列优先考虑。 |
|
Mixtral(Mistral AI) |
Mixtral 8×7B / 8×22B |
稀疏 MoE 架构,激活部分专家,推理速度快、吞吐高。官方数据表明 Mixtral 8×22B 在 MMLU、GSM8K(数学)、HumanEval(代码)上全面超过 Llama 2 70B 等老一代模型,同时在推理速度/成本上有明显优势。 |
希望兼顾性能和成本,在一到两张高端卡上跑一个“很能打”的通用模型,Mixtral 值得优先试。 |
|
Gemma(Google) |
Gemma 2/3(1B–27B 系列) |
新一代轻量开源模型,多个基准上已接近甚至超过部分自家 Gemini Flash;上下文最长到 128K tokens,谷歌专门针对安全和易部署做了优化。 |
对谷歌生态友好(GCP、Vertex AI)或需要比较小但靠谱的模型(1B–4B 级),Gemma 是一个干净、工程化较好的选择。 |
|
Phi3(微软) |
Phi3 Mini / Small / Medium |
微软官方给定位是“小而强”:最小的 Phi3Mini 仅 3.8B 参数,在很多基准上逼近甚至对齐 Mixtral 8×7B、GPT3.5 等大模型,MMLU 大约在 69% 左右。特别适合边缘设备、本地部署。 |
本地电脑 / 手机 / 嵌入式设备 想跑一个“真能用”的小模型,Phi3 是目前开源里最强的小体量之一。 |
|
ChatGLM / GLM(智谱 AI) |
ChatGLM6B / GLM4.x |
最早一批可商用的中文开源对话模型之一;GLM4 系列继续强化多语种和多模态,在 32K–128K 上下文、图文混合、国产硬件适配(华为昇腾等)方面布局很重。 |
国内政企、教育、金融等场景,需要国产化程度高、适配国产芯片/私有云,GLM/ChatGLM 值得单独列一档。 |
|
Yi 系列(零一万物) |
Yi34B / Yi1.534B |
Yi34B 在 MMLU 上大约 76.3%,超 Llama2 70B / Falcon180B 等早期大模型,尤其在中文和代码任务上口碑不错,多款衍生微调模型也很流行。 |
想在中文+英文双语上保持平衡,又希望模型本身比较“干净”,Yi34B / Yi1.534B 是一条成熟路线。 |
|
CommandR+(Cohere) |
CommandR+ |
更偏企业检索增强(RAG)场景,MMLU 在 75% 左右,但在 HellaSwag、Winogrande 等常识推理基准上表现均衡,上下文支持 128K tokens,非常适合长文档、多轮检索问答。 |
企业知识库、文档问答、RAG 系统,尤其是多语言文档库,CommandR+ 是专门为这类任务设计的开源/开权模式。 |
简化建议:
- 做中文产品 / 中文为主:Qwen3 > DeepSeek > ChatGLM / GLM > Yi
- 需要国际化、多模态、长上下文:Llama 4 / Qwen3 / DeepSeek
- 单机/本地想跑得动:Phi3 / Gemma 3 小型号 / Qwen1.5B/4B 等
- 企业知识库 + RAG:CommandR+ / Llama 4 / Qwen3
二、常用开源多模态 & 图像生成模型
1. 文本→图像模型
|
模型 |
特点 |
适用场景 |
|
Stable Diffusion 3.x / 3.5 |
经典开源生图系,3.5 在画质和指令理解上比 2.x 大幅提升,社区插件、UI(如 Automatic1111、ComfyUI)最丰富,很多第三方 benchmark 给出极高性价比评分。 |
通用图片生成、插画、海报、游戏原画;需要完全自托管、本地化的首选。 |
|
FLUX.1 / FLUX.2 系列 |
2025–2026 年最受关注的开源生图族之一,多篇评测认为 FLUX.2 Pro 画质和 Prompt 忠实度已经追平甚至超过很多闭源商用模型[20][21]。Kontext 版本针对多图拼接、背景一致化等做了优化。 |
对画质、文字准确度和可控性要求高的生产级场景,比如广告、电商详情页、影视分镜。 |
|
GLMImage(智谱 + 华为) |
全流程在国产昇腾芯片上训练的多模态图像生成模型,开源不到 24 小时登顶 Hugging Face trending 榜;在复杂中文文字渲染、LOGO、UI 布局等方面表现突出。 |
中文文字图片、海报、PPT 封面、教育课件 等需要中文字体清晰的场景。 |
|
Hunyuan Image 3.0(腾讯混元) |
80B 级 MoE 架构,针对超高分辨率和多风格做了优化,多家评测认为在开源模型中属于“大而全”的旗舰,多模态理解能力和图像细节都很强。 |
高端商业插画、广告、印刷级图片,或者需要多风格创意输出的大公司团队。 |
三、常用开源语音模型(TTS/ASR)
|
模型 |
类型 |
亮点 |
适用场景 |
|
Fish Speech V1.5 / FishAudioS1 |
文本转语音 TTS |
采用 DualAR 架构 + 双自回归 Transformer,支持中/英/日等多语种,独立评测中 ELO 排名靠前,中文字符 CER 约 1.3%;情感、语调控制细腻。 |
需要高质量、多情绪、多语种配音的应用:有声书、短视频解说、虚拟主播等。 |
|
OpenAudioS1 |
情感 TTS |
强调情绪表达(哭、笑等)、实时性和开源可定制,是社区常被拿来和 Fish Speech 对比的一线模型。 |
实时语音代理、陪伴型机器人、游戏 NPC。 |
|
Whisper / Whisper v3 |
语音识别 ASR |
OpenAI 出的通用语音识别/翻译模型,已被无数开源项目集成;多语言识别/翻译能力强,开源协议宽松。 |
会议记录、字幕生成、多语言翻译、语音搜索。 |
四、常用开源模型网站 / 平台
1. 国际通用平台
|
平台 |
主要用途 |
适合人群 |
网址 |
|
Hugging Face |
最大的开源模型和数据集平台,托管 50 万+ 模型(LLM、CV、音频、强化学习等全品类),提供推理 API、Spaces Demo 和评测榜单(如 Open LLM Leaderboard)。 |
所有做 AI 的人:从学生到企业。找任何模型,先搜 HF 基本是常识。 |
https://huggingface.co |
|
GitHub |
代码与模型权重仓库,很多团队先在 GitHub 发代码再同步到 HF/ModelScope。 |
需要看源码、训练脚本、Issue、社区讨论的开发者。 |
https://github.com |
|
Kaggle Models / Datasets |
以竞赛和数据集著称,现在也托管不少模型(如 DeepSeekV3、Phi3 等),便于直接在 Notebook 环境复现。 |
想在 Notebook 里快速试模型的数据科学/工程同学。 |
https://www.kaggle.com/models |
|
OpenRouter / Together / Replicate 等 |
聚合多供应商 LLM 和多模态模型,通过统一 API 调用;你可以用一个 Key 调 DeepSeek、Qwen、Llama、Gemma 等各种模型。 |
不想自己部署,只想以低成本用“开源模型的云托管版本”的开发者。 |
https://openrouter.ai / https://www.together.ai / https://replicate.com |
2. 中文生态主平台
|
平台 |
背景 & 亮点 |
适用场景 |
网址 |
|
ModelScope(魔搭社区,阿里) |
面向中文开发者的模型平台,支持文本、图像、视频、语音等多模态;与 Qwen 系列深度绑定,很多阿里/国内高校/厂商模型首发在这上面[28][29]。提供在线体验、Notebook、训练/部署一体工具。 |
主要做中文场景,且希望下载速度、文档、示例代码都对中文友好,可以优先看魔搭。 |
https://modelscope.cn |
|
ModelScope AI / 阿里云 ModelStudio |
针对企业的 MaaS 平台,支持直接托管和调用 Qwen、GLM、Stable Diffusion 等模型,集成阿里云安全审计、计费和运维。 |
中大型企业想用“开放模型 + 云上托管 + 合规安全”的一体解决方案。 |
通过阿里云控制台进入 |
|
百度飞桨 PaddlePaddle & AI Studio |
以深度学习框架+产业级模型为主,融合 OCR、NLP、CV、多模态等;对于政府、金融等国产化要求高的场景,飞桨生态是重要选项。 |
政企/研究机构,特别是有国产软硬件适配要求的项目。 |
https://www.paddlepaddle.org.cn |
|
腾讯混元 / Z.AI / 智谱 AI 等自家平台 |
各家都有自己的开放平台和开源模型(如 GLM4.x、GLMImage、Hunyuan Image 等),部分也同步到 HF 和 ModelScope。 |
想深度使用某家官方 API + 其对应的开源权重(本地化、二次训练)时,可以直接从该家官网和 HF/ModelScope 双线获取。 |
各家官网 / HF 主页可搜到 |
3. 排行榜 & 比较型网站
|
网站 |
用途 |
说明 |
|
Hugging Face Open LLM Leaderboard |
开源大模型综合排行榜 |
以前是最权威的开源 LLM 榜之一,根据 MMLUPro、BBH、IFEval 等多基准给出综合评分,虽然现已存档,但仍可作为历史参考。 |
|
ArtificialAnalysis / LLMStats / Lambda / Vellum Leaderboard 等 |
LLM 综合对比 |
提供 MMLU、GPQA、HumanEval、SWEBench 等多基准数据,以及价格($/M tokens)、速度、上下文长度等信息,可直接输入模型名对比。 |
|
各类专题榜单 |
OCR、代码、图像生成等垂直领域榜单 |
如 GLMImage 在多个文本渲染基准上排名前列、Fish Speech 在 TTS Arena 得分靠前等,都可以在相应榜单网站查到细节。 |
五、结合你的需求怎么落地选择?
你原问题比较简短:“常用开源模型对比 + 常用开源模型网站”。如果把它落到能直接操作的层面,可以按下面几步走:
先定方向(文字 / 图像 / 语音 / 代码)
-
- 聊天、问答、写作:看上面 LLM 表格。
- 生图:Stable Diffusion 3.5 / FLUX / GLMImage / Hunyuan Image 3.0。
- 语音:Fish Speech / OpenAudioS1 / Whisper。
- 代码助理:DeepSeekV3.2 / Qwen3Coder / Llama 4 + 专用 code 模型。
再选生态平台
-
- 想要全球生态 & 英文资料多:从 Hugging Face 搜起。
- 主要是中文开发者 / 在国内服务器部署:优先 ModelScope,再对照 Hugging Face。
- 不想自己运维 GPU,只想用 API:OpenRouter / Together / 阿里云 / 百度 / 腾讯等官方平台。
用排行榜做 sanity check
-
- 在 Hugging Face / LLMStats / ArtificialAnalysis 看一下:
- MMLU / MMLUPro:通用知识和推理
- HumanEval / LiveCodeBench:代码
- GPQA:高难度问答
- 同一梯队的模型,谁更便宜、谁生态更活跃,就优先谁。
- 在 Hugging Face / LLMStats / ArtificialAnalysis 看一下:
真正落地时的一个简单组合示例
-
- 中文业务 + 私有化部署:
- 平台:ModelScope + 本地 GPU / 私有云
- LLM:Qwen332B / 72B 或 DeepSeekV3.2
- 生图:GLMImage + Stable Diffusion 3.5
- 语音:Fish Speech V1.5
- 跨国业务 / 多语种产品:
- 平台:Hugging Face + OpenRouter / Together
- LLM:Llama 4 Maverick + Qwen3 + DeepSeekV3.2(按场景切换)
- 生图:FLUX.2 Pro / Stable Diffusion 3.5
- 语音:Fish Speech + Whisper
- 中文业务 + 私有化部署:
网硕互联帮助中心






评论前必须登录!
注册