1、如何定义“推理模型”?
在人工智能(或广义机器学习)领域,模糊且争议不断的定义屡见不鲜,“推理模型” 这一概念也不例外。在本文中,“推理” 被定义为通过多步骤中间过程解决复杂问题的过程。例如:
- 简单事实问答(“法国首都是哪里?”)无需推理
- 基础算术(“时速60英里行驶3小时的距离?”)需简单推理(识别距离=速度×时间关系)
普通大模型可能仅给出简短答案(如左图所示),而推理模型会展示思考过程。(注:许多未专门针对推理任务开发的大模型,也能在回答中提供中间推理步骤。)
如今,当我们提及推理模型时,通常指擅长处理更复杂推理任务的大模型,例如解决谜题、谜语和数学证明等。同时,当前多数标榜 “推理模型” 的大模型会在输出中包含 “思考” 过程,至于模型是否真正具备 “思考” 能力,以及如何实现 “思考”,则是另一话题。
推理模型中的中间步骤有两种呈现形式:一是如前图所示,直接输出思考轨迹;二是部分推理大模型(如 OpenAI 的 o1)会通过多轮迭代生成中间步骤,但这些步骤不会展示给用户。
需要注意的是,“推理” 体现在两个不同层面:1)通过多步中间过程处理输入并生成输出;2)将某种推理过程作为响应的一部分提供给用户。
2、何时使用推理模型?
在明确了推理模型的定义后,我们进入更关键的环节:如何构建和优化用于推理任务的LLM?但在深入技术细节前,需先理清一个核心问题:推理模型究竟适用于哪些场景?
推理模型专为解决复杂任务而设计,对于摘要生成、翻译或基于知识的问答等简单任务,推理模型并非必需。事实上,在所有场景滥用推理模型可能导致效率低下和成本增加,这类模型通常使用成本更高、输出更冗长,甚至可能因 “过度推理” 而更容易出错。因此,核心原则依然是:为任务选择合适的工具(或大模型类型)。
下图总结了推理模型的主要优势和局限性。
推理模型的主要优势和劣势
3、DeepSeek推理模型训练流程解析
在探讨构建和优化推理模型的四种主要方法之前,我们先简要了解下《DeepSeek R1 技术报告》中描述的训练流程。这份报告是一个有趣的案例研究,为开发推理大模型提供了方法论框架。
值得注意的是,DeepSeek 并未发布单一的 R1 推理模型,而是推出了三个不同版本:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。
根据技术报告描述,可以将这些模型的开发过程总结为下图:
DeepSeek 三种不同推理模型的开发过程
1.DeepSeek-R1-Zero: 该模型基于 2024 年 12 月发布的 671B 参数预训练模型 DeepSeek-V3 构建。研发团队采用强化学习(RL)进行训练,设计了两类奖励函数。这一过程被称为 “冷启动” 训练,因为它跳过了监督微调(SFT)阶段,而传统的人类反馈强化学习(RLHF)通常包含这一步骤。
2.DeepSeek-R1: 这是 DeepSeek 的旗舰推理模型,基于 DeepSeek-R1-Zero 构建。通过额外的监督微调阶段和强化学习训练进一步优化,弥补了 “冷启动” 模型的不足。
3.DeepSeek-R1-Distill: 利用前序步骤生成的监督微调数据,DeepSeek 团队对 Qwen 和 Llama 系列模型进行微调以增强推理能力。尽管并非传统意义上的 “蒸馏”,这一过程涉及在 671B 大型模型 DeepSeek-R1 的输出数据上训练较小模型(如 Llama 8B/70B 和 Qwen 1.5B-30B)。
4、构建和优化推理模型的四种主要方法
本节将梳理当前用于增强 LLM 推理能力和构建专用推理模型(如DeepSeek-R1、OpenAI 的 o1/o3 等)的关键技术。
1)推理时扩展(Inference-time Scaling)
提升 LLM 推理能力(或泛指任何能力)的一种方法是推理时扩展。通过增加推理阶段的计算资源投入,提升模型输出质量,而非修改模型本身。
面对复杂问题时,给予更多时间梳理思路往往能得出更好的答案。同理,可以通过技术手段让 LLM 在生成答案时 “思考” 更充分。提高推理时可扩展性有两种方法:
思维链(CoT)提示法: 在输入提示中加入"逐步思考"等指令,引导模型生成中间推理步骤而非直接给出答案。实验显示,这种方法可使复杂问题解答准确率提升,但对简单知识型问答(如"法国首都是哪?")效果有限。
2022 年《Large Language Models are Zero-Shot Reasoners》论文中一个经典 CoT 提示的例子。
CoT 方法可以看作是推理时扩展,因为它通过生成更多输出 token 增加了推理成本。
投票与搜索策略: 例如通过 “多数投票” 让模型生成多个答案并选择高频结果,或使用波束搜索(beam search)等算法优化输出。具体细节可参考 2024 年论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》。
不同的基于搜索的方法依赖基于过程奖励的模型来选择最佳答案
DeepSeek R1 技术报告将常见推理时扩展方法(如基于过程奖励模型、蒙特卡洛树搜索的方法)归类为 “未成功尝试”,这表明,DeepSeek 并未明确使用这些技术,而只是利用了 R1 模型生成更长响应的自然倾向。与 V3 基础模型相比,R1 模型自然倾向于生成更长的响应,这可以说是一种隐式的推理时扩展形式。
推测 OpenAI 的 o1/o3 模型使用了推理时扩展,这也解释了其较高的使用成本(相比 GPT-4o 等模型)。除推理时扩展外,o1/o3 很可能采用了类似 DeepSeek R1 的强化学习训练流程。
2)纯强化学习(Pure RL)
DeepSeek R1 论文的一大亮点是证明了推理能力可通过纯强化学习(RL)自然涌现。我们进一步拆解其含义:
如前所述,DeepSeek 开发了三类 R1 模型。首个版本DeepSeek-R1-Zero基于 2024 年 12 月发布的 671B 预训练基座模型 DeepSeek-V3 构建。与传统 RL 流程(先监督微调 SFT,再强化学习)不同,R1-Zero 跳过了 SFT 阶段,仅通过强化学习训练,见下图。
DeepSeek-R1-Zero模型的开发过程
尽管该过程类似常见的人类反馈强化学习(RLHF,用于偏好调优 LLM),但关键区别在于跳过了监督微调(SFT)的指令调优阶段,因此被称为 “纯” RL。(注:LLM 领域的 RL 与传统 RL 有显著差异,此处暂不展开讨论。)
在奖励函数设计上,R1-Zero 未使用基于人类偏好的奖励模型,而是采用两类奖励:
- 准确性奖励:通过 LeetCode 编译器验证代码答案,用确定性系统评估数学问题。
- 格式奖励:借助 LLM 裁判确保响应符合预期格式(如将推理步骤置于标签内)。
这种方法足以让 LLM 发展出基础推理能力。研究团队观察到训练中模型突然开始自主生成推理痕迹(即"Aha!时刻"),表明推理能力可通过纯RL诱导产生,如下图所示。
DeepSeek R1 技术报告中的一张图展示了“Aha!”时刻的出现
尽管 R1-Zero 并非顶级推理模型,但其通过生成中间 “思考” 步骤证明了推理能力,验证了纯 RL 构建推理模型的可行性,DeepSeek 是首个公开该方法的团队。
3)监督微调和强化学习(SFT + RL)
接下来看 DeepSeek 的旗舰推理模型DeepSeek-R1,其开发流程为构建推理模型提供了通用框架。该模型在 R1-Zero 基础上,通过额外的监督微调(SFT)和强化学习(RL)提升推理性能。
需注意,先 SFT 后 RL 是标准 RLHF 流程的常见步骤,OpenAI 的 o1 很可能采用了类似方法。
DeepSeek-R1模型的开发过程
- 冷启动 SFT 数据生成:DeepSeek 用 R1-Zero 生成“冷启动”监督微调数据,并基于此进行指令微调,随后进入 RL 阶段。
- 指令微调与强化学习:RL 阶段沿用 R1-Zero 的准确性和格式奖励,但新增一致性奖励以避免响应中出现多语言混合问题。在后续 SFT 阶段,模型生成 60 万条思维链(CoT)数据和 20 万条事实性数据,用于进一步微调基座模型 DeepSeek-V3,最终通过 RL 完成训练。
- 最终强化学习:结合规则化准确度奖励(数学/代码问题)与人类偏好奖励(其他问题),形成混合奖励机制。
最终 DeepSeek-R1 由于增加了 SFT 和 RL 阶段,性能较 DeepSeek-R1-Zero 有显著提升,如下表所示。
OpenAI A1 与 DeepSeek R1 模型的基准测试对比
4)纯监督微调和知识蒸馏(SFT+Distillation)
到目前为止,我们已经介绍了构建和改进推理模型的三种主要方法:
推理时扩展,一种无需训练或修改底层模型即可提高推理能力的技术。
纯强化学习,如 DeepSeek-R1-Zero,它表明推理可以作为一种学习行为出现,而无需监督微调。
监督微调加上 RL,从而产生了 DeepSeek 的旗舰推理模型 DeepSeek-R1。
那么,最后一种方法是什么呢?
模型“蒸馏”。
DeepSeek 发布的较小模型(如 Llama 8B/70B、Qwen 1.5B-30B)通过 “知识蒸馏” 训练,即在大模型生成的 SFT 数据上微调小模型。需注意,这并非传统意义上的知识蒸馏(传统蒸馏是让小模型学习大模型的输出概率分布)。
此处的蒸馏指的是在由较大 LLM 生成的 SFT 数据集上,对较小的 LLM(例如 Llama 8B 和 70B 以及 Qwen 2.5 模型(0.5B 到 32B))进行指令微调。具体来说,这些较大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的一个中间检查点。实际上,此蒸馏过程使用的 SFT 数据与上一节中描述的用于训练 DeepSeek-R1 的数据集相同。
下图中突出显示了蒸馏部分。
DeepSeek-R1-Distill模型的开发过程
为什么要开发这些“蒸馏”模型?主要有两个原因:
- 效率优势:小模型运行成本更低,且可在低端硬件上部署,对研究者和开发者更友好。
- 纯 SFT 基准测试:通过对比验证,展示仅靠高质量 SFT 数据(无需 RL)能将模型推理能力提升到何种程度。
下表对比了蒸馏模型与其他模型的性能:尽管蒸馏模型远小于 R1,但其性能相对于 R1-Zero 表现亮眼,且优于部分同类模型(如推测为 o1 蒸馏版的 o1-mini)。
蒸馏模型与非蒸馏模型的基准比较
此外,DeepSeek 团队在 32B 规模的 Qwen 模型上测试了纯 RL 与适配优化的效果。结果表明:对小模型而言,蒸馏(基于高质量 SFT 数据)远优于纯 RL,暗示 RL 可能不足以在小模型中诱导强推理能力,而 SFT 是更有效的策略。
在较小的 32B 模型上对蒸馏和强化学习进行了基准比较
5、小结
在本节中,我们探讨了构建和改进推理模型的四种不同策略:
推理时扩展无需额外训练,但会增加推理成本,随着用户数量或查询量增长,大规模部署成本会显著上升。然而,对于本身性能较强的模型,这仍是提升推理表现的简单有效策略。笔者推测,OpenAI 的 o1 很可能采用了推理时资源扩展,这也解释了为何其单 token 使用成本高于 DeepSeek-R1。
纯强化学习在研究方面很有意思,纯 RL 为 “推理能力作为涌现行为” 提供了关键洞见,具有重要价值。但在实际模型开发中,*强化学习与监督微调结合(RL + SFT)才是更优选择,这种组合能催生更强的推理模型。笔者进一步推测,o1 的训练很可能也采用了 RL + SFT 方案。更具体地说,o1 或许基于比 DeepSeek-R1 更弱、更小的基座模型,但通过 RL + SFT 与推理时资源扩展的协同,弥补了基座模型的不足。
RL + SFT 是构建高性能推理模型的关键方法。DeepSeek-R1 的技术路线为此提供了清晰的实践范本:通过多阶段训练(冷启动数据生成、多维度奖励函数设计、迭代式数据增强),实现推理能力的系统性提升。
蒸馏是一种颇具吸引力的方法,尤其适用于构建更小、更高效的模型。但该方法的局限性在于,其创新驱动力较弱。蒸馏始终依赖现有更强模型生成监督微调数据,难以催生下一代推理模型的突破。
6、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
评论前必须登录!
注册