按场景选型(模型选择指南)
根据任务场景在性能、成本、延迟三角中找到最优模型组合
通过训练时强化学习和推理时计算扩展,让 LLM 学会"先想再答"的推理范式
内容摘要
推理增强是指通过专门的训练方法和推理策略,让大语言模型从"直觉式一步给答案"升级为"分步思考、反复验证后再给答案"的能力提升范式。
推理增强是指通过专门的训练方法和推理策略,让大语言模型从"直觉式一步给答案"升级为"分步思考、反复验证后再给答案"的能力提升范式。
传统 LLM 的生成方式是自回归(Autoregressive)逐词输出——模型看到问题后立刻开始写答案,中间没有"打草稿"的环节。这对简单问题没问题,但碰到数学推导、多步逻辑、代码调试等需要深度思考的任务,一步到位的准确率很低。推理增强的核心洞察是:与其砸钱把模型参数做到天文数字,不如教会模型"思考的方法",并在回答时给它更多的计算时间去想。
推理增强在 AI 系统中的价值体现在两个层面:一是模型本身变得更聪明(训练侧),二是同一个模型面对难题时可以"想得更久"来提升准确率(推理侧)。这两者相辅相成,构成了当前 LLM 能力提升的重要方向。
推理增强由两大技术维度构成,训练侧和推理侧各司其职:
| 维度 | 核心手段 | 代表技术 | 说明 |
|---|---|---|---|
| 训练侧增强 | 用强化学习教模型"怎么想" | RLVR、GRPO | 通过可验证奖励的强化学习,让模型自发涌现推理行为 |
| 推理侧增强 | 给模型更多时间"去想" | Test-Time Compute Scaling | 在推理阶段分配更多计算资源,让模型进行多步思考 |
| 思考格式 | 结构化的思考过程 | Chain-of-Thought(思维链) | 模型在给出答案前,先输出完整的推理步骤 |
RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励的强化学习)是当前训练推理模型的主流方法。它的思路很直接:不用人类标注"正确的推理过程",而是只看最终答案对不对。
传统 RLHF(人类反馈的强化学习)需要训练一个"奖励模型"来模拟人类偏好,容易被模型钻空子(Reward Hacking,奖励欺骗)。RLVR 绕过了奖励模型,直接用规则判定结果——数学题就对答案、代码题就跑测试、逻辑题就查验结论。奖励信号是二值的:对就是 1,错就是 0。
DeepSeek-R1 是 RLVR 的标杆案例。它使用 GRPO(Group Relative Policy Optimization,分组相对策略优化)算法,在纯强化学习训练中让模型自发涌现了自我验证、回溯修正等推理行为,甚至出现了被研究者称为"aha moment"的顿悟现象。
Test-Time Compute Scaling(推理时计算扩展)的意思是:在模型回答问题时,允许它消耗更多的计算资源来"想得更深"。
这背后的逻辑类似考试时分配答题时间——简单选择题 30 秒搞定,证明题可能需要 10 分钟。推理时计算扩展就是让模型根据问题难度,动态调整"思考时间"(即生成的 Thinking Token 数量)。
研究表明,推理准确率与 Thinking Token 数量之间存在对数线性关系:token 翻倍,准确率提升一个固定比例。但这个收益不是无限的——超过某个阈值后,过多的思考反而可能引入干扰(逆向扩展效应)。
Chain-of-Thought(CoT,思维链)是推理增强的外在表现形式。模型不直接输出答案,而是先生成一段"内心独白"式的推理过程,然后基于推理结果给出最终答案。
早期的 CoT 是通过提示词(Prompt)诱导的——在 prompt 里加一句"让我们一步一步思考"就能提升效果。而在推理模型(如 o1、DeepSeek-R1)中,CoT 是训练出来的内生能力,模型天然就会先想再答,无需额外提示。
推理增强的核心机制可以拆成"训练阶段"和"推理阶段"两个环节来理解:
训练阶段:以 RLVR 为例,基座模型(Base Model)对同一道数学题生成一组候选回答(通常几十到上百个),然后用规则验证器(如对比标准答案、运行代码测试)给每个回答打分(对=1,错=0)。GRPO 算法根据这批分数计算组内相对优势,更新模型参数,让模型学会偏好能得到正确结果的推理路径。不限定推理过程的具体格式,模型自己摸索出最高效的思考方式。
推理阶段:训练好的推理模型接收用户问题后,先进入"思考模式"(Thinking Mode),在隐藏的思维链中进行多步推理——分析问题、尝试不同解法、自我验证、必要时回溯修正。思考完成后,把最终结论整理成用户可见的回答输出。思考过程消耗的 token 就是"推理时计算"的核心开销。
图解要点:
以下示例展示如何调用 OpenAI 推理模型的 Reasoning 能力,对比普通模型和推理模型的输出差异。
# 基于 openai>=1.0.0 验证(截至 2026-03)
from openai import OpenAI
client = OpenAI()
question = "一个水池有两个进水管和一个出水管。A管单独注满需6小时,B管需8小时,出水管单独排空需12小时。三管同时打开,多久注满?"
# 普通模型:直接给答案
resp_normal = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": question}],
)
print("普通模型:", resp_normal.choices[0].message.content[:200])
# 推理模型:先思考再给答案
resp_reasoning = client.chat.completions.create(
model="o3-mini", # 推理模型
messages=[{"role": "user", "content": question}],
)
print("推理模型:", resp_reasoning.choices[0].message.content[:200])
普通模型直接输出答案,推理模型在内部执行多步推理(计算各管效率、合并、求解)后输出答案和完整解题过程。推理模型的 usage.completion_tokens 通常远大于普通模型,多出的部分就是"思考 token"。
| 概念 | 与推理增强的区别 | 更适合关注的重点 |
|---|---|---|
| CoT Prompting(思维链提示) | 是一种提示词技巧,让普通模型模仿推理;推理增强是训练出来的内生能力 | 提示词工程、零成本提升效果 |
| RLHF(人类反馈强化学习) | 用人类偏好训练奖励模型;RLVR 用规则验证器直接判对错,不需要奖励模型 | 对齐人类偏好、主观任务质量 |
| Agent 推理(Agent Reasoning) | Agent 的推理是在工具调用和任务规划层面;推理增强聚焦于模型内部的逻辑思考能力 | 工具使用、任务分解、多步执行 |
| 模型蒸馏(Model Distillation) | 把大推理模型的能力"压缩"到小模型中;推理增强是获得这种能力的训练方法 | 模型压缩、部署效率 |
核心区别:
| 常见误区 | 正确理解 |
|---|---|
| 推理模型就是普通模型加了 CoT 提示词 | 推理模型的思维链是通过 RLVR 训练出来的内生能力,不是提示词诱导的。对推理模型再加 CoT 提示,效果提升很小(约 2-3%) |
| RLVR 教会了模型新的推理能力 | 学界仍有争论。一种观点认为 RLVR 主要是"搜索压缩"——把基座模型多次采样才能碰对的路径,训练成一次就走对。模型的能力上限可能在预训练阶段就已确定 |
| 推理模型一定比普通模型好 | 推理模型在简单任务上可能"想多了"反而出错或增加不必要的成本。选模型要看任务复杂度,简单任务用快模型更划算 |
| 思考 token 越多答案越准 | 存在逆向扩展效应。Anthropic 的研究发现,过长的推理链可能让模型偏离主题、过拟合问题框架,甚至产生一些意外行为 |
参考答案:
RLHF 需要训练一个奖励模型来模拟人类偏好,奖励信号是连续的、主观的;RLVR 直接用规则验证器判定答案对错,奖励信号是二值的(0 或 1)、客观的。RLVR 更适合推理模型,原因有二:一是数学和代码等推理任务有客观标准答案,天然适合规则验证;二是神经网络奖励模型在长期训练中容易被模型"钻空子"(Reward Hacking),而规则验证器不会。
参考答案:
不太合适。客服场景的特点是:(1) 大部分问题较简单,不需要深度推理;(2) 用户对响应速度敏感,推理模型的"思考时间"会显著增加延迟;(3) 很多问题是事实检索型(查订单、查政策),推理增强对知识密集型任务收益有限。更好的方案是用快速模型处理常规问题,仅对需要多步逻辑判断的复杂投诉、纠纷场景路由到推理模型。
参考答案:
好处:跳过 SFT(监督微调)避免了用人工标注的推理轨迹"框住"模型的思考方式。人工标注的推理路径代表的是人类的解题思路,可能不是模型最擅长的方式。直接用 RL 让模型自由探索,可能涌现出超越人类思维定式的推理策略(DeepSeek 团队观察到的"aha moment"就是例证)。
风险:(1) 训练初期模型输出格式混乱,可读性差,需要后续额外处理;(2) 没有 SFT 做"冷启动",RL 训练早期探索效率低,训练成本可能更高;(3) 涌现的推理行为不可控,可能产生不符合预期的输出模式。实际上 DeepSeek-R1 的最终版本还是加入了少量 SFT 数据来改善输出格式。
优先展示同分类且标签更接近的内容,方便继续串联学习。
根据任务场景在性能、成本、延迟三角中找到最优模型组合
根据参数规模选择合适的 LLM,平衡性能、成本和硬件需求
在个人电脑或私有服务器上运行大语言模型的核心概念与工具选择。