按规模选型(Model Selection by Parameter Size)
根据参数规模选择合适的 LLM,平衡性能、成本和硬件需求
根据任务场景在性能、成本、延迟三角中找到最优模型组合
内容摘要
按场景选型(Model Selection by Scenario)是指根据具体任务的需求特征,在多个候选大语言模型中选出最合适的那一个(或一组)的决策过程。它的核心不是"哪个模型最强",而是"哪个模型最适合我的场景"。
按场景选型(Model Selection by Scenario)是指根据具体任务的需求特征,在多个候选大语言模型中选出最合适的那一个(或一组)的决策过程。它的核心不是"哪个模型最强",而是"哪个模型最适合我的场景"。
为什么需要按场景选型?因为 2026 年市面上已有超过 200 个可用的 LLM(大语言模型),从 OpenAI 的 GPT-5、Anthropic 的 Claude 4.5、Google 的 Gemini 3,到开源的 DeepSeek、Qwen、LLaMA 等。每个模型在不同任务上的表现差异巨大——编码最强的未必写文案最好,推理最强的未必最便宜。如果不做选型,要么花冤枉钱(简单任务用顶级模型),要么做不好任务(复杂场景用廉价模型)。
和传统软件选型不同,LLM 选型有三个特殊挑战:模型能力边界模糊(同一个模型有时行有时不行)、市场更新极快(每季度都有新模型发布)、评测基准和真实场景存在偏差(Benchmark 分数高不等于你的任务做得好)。因此需要一套系统化的选型框架。
按场景选型的核心框架可以概括为"三层三角":三个评估层级 + 一个不可能三角。
| 结构 | 作用 | 说明 |
|---|---|---|
| 场景分析层 | 定义"要解决什么问题" | 确定任务类型、约束条件、质量底线 |
| 评估维度层 | 定义"用什么标尺量" | 性能、成本、速度、可靠性等维度及权重 |
| 决策执行层 | 定义"怎么选、怎么验" | 候选池筛选、对标测试、最终决策 |
选型的第一步是把场景说清楚。"我要做一个 AI 应用"太模糊,需要回答三个问题:
不同场景对各维度的权重完全不同。业界常用的加权评估框架:
| 维度 | 权重参考 | 衡量指标 |
|---|---|---|
| 准确率(Accuracy) | 25-40% | 在你的测试集上的正确率,不是公开 Benchmark |
| 成本(Cost) | 20-30% | 每百万 Token 的价格、月度总费用 |
| 速度(Latency) | 10-20% | 首 Token 延迟(TTFT)、每秒输出 Token 数 |
| 可靠性(Reliability) | 10-20% | 幻觉率、输出一致性、服务可用性 |
| 兼容性(Compatibility) | 5-10% | API 接入难度、供应商锁定风险 |
权重分配原则:场景决定权重,不是模型决定权重。比如客服机器人的成本权重高,医疗问答的准确率权重高,实时游戏 NPC 的速度权重高。
评估维度确定后,进入实际的选型操作:
模型选型的核心是一个不可能三角:性能、成本、速度三者不可兼得。任何模型都只能在这个三角中占据某个位置:
选型的本质就是在这个三角中,根据你的场景找到"够用且最划算"的那个点。
一个更高级的策略是 Model Routing(模型路由):不固定使用一个模型,而是根据每条请求的复杂度自动分发到不同模型。简单问题走小模型(便宜快),复杂问题走大模型(贵但准)。2025 年的研究表明,这种策略可以降低 37-46% 的成本,同时保持准确率不变。
图中展示的是 Model Routing 的基本逻辑:一个路由层根据请求复杂度,把任务分发到不同级别的模型。绿色代表低成本高吞吐,红色代表高成本高质量。实际生产中,复杂度判断可以基于规则(如 prompt 长度)、分类器或级联策略(先用小模型试,不行再升级)。
"""
按场景选型:加权评分计算示例
演示如何用加权矩阵量化选型决策
"""
# 候选模型的各维度得分(0-100 分制,数据为示意)
# cost 和 speed 分数越高代表越便宜/越快
candidates = {
"Claude Opus 4.1": {"accuracy": 95, "cost": 20, "speed": 55, "reliability": 93},
"GPT-5": {"accuracy": 92, "cost": 35, "speed": 60, "reliability": 88},
"Gemini 2.5 Flash": {"accuracy": 78, "cost": 95, "speed": 93, "reliability": 75},
"DeepSeek V4": {"accuracy": 80, "cost": 98, "speed": 90, "reliability": 72},
}
# 不同场景的权重配置
scenarios = {
"客服机器人": {"accuracy": 0.25, "cost": 0.35, "speed": 0.25, "reliability": 0.15},
"医疗问答系统": {"accuracy": 0.45, "cost": 0.10, "speed": 0.10, "reliability": 0.35},
"批量数据处理": {"accuracy": 0.20, "cost": 0.40, "speed": 0.30, "reliability": 0.10},
}
for scenario, weights in scenarios.items():
print(f"\n场景:{scenario}")
print(f" 权重:准确率={weights['accuracy']}, 成本={weights['cost']}, "
f"速度={weights['speed']}, 可靠性={weights['reliability']}")
scores = {}
for model, metrics in candidates.items():
score = sum(metrics[dim] * weights[dim] for dim in weights)
scores[model] = round(score, 1)
# 按得分降序排列
ranked = sorted(scores.items(), key=lambda x: x[1], reverse=True)
for rank, (model, score) in enumerate(ranked, 1):
marker = " ← 推荐" if rank == 1 else ""
print(f" {rank}. {model}: {score} 分{marker}")
预期输出:
场景:客服机器人
权重:准确率=0.25, 成本=0.35, 速度=0.25, 可靠性=0.15
1. DeepSeek V4: 87.6 分 ← 推荐
2. Gemini 2.5 Flash: 87.2 分
3. GPT-5: 63.5 分
4. Claude Opus 4.1: 58.5 分
场景:医疗问答系统
权重:准确率=0.45, 成本=0.10, 速度=0.10, 可靠性=0.35
1. Claude Opus 4.1: 82.8 分 ← 推荐
2. GPT-5: 81.7 分
3. Gemini 2.5 Flash: 80.2 分
4. DeepSeek V4: 80.0 分
场景:批量数据处理
权重:准确率=0.20, 成本=0.40, 速度=0.30, 可靠性=0.10
1. DeepSeek V4: 89.4 分 ← 推荐
2. Gemini 2.5 Flash: 89.0 分
3. GPT-5: 59.2 分
4. Claude Opus 4.1: 52.8 分
上述代码展示了加权评分矩阵的核心逻辑:同样的模型在不同权重下排名完全不同。cost 字段用的是"得分"而非价格,分数越高代表越便宜。
| 概念 | 与按场景选型的区别 | 更适合关注的重点 |
|---|---|---|
| Model Routing(模型路由) | 按场景选型是离线的选型决策过程;Model Routing 是运行时根据每条请求动态分发模型 | 关注如何在系统运行中实时匹配请求和模型 |
| Benchmark 评测 | Benchmark 是在标准数据集上测能力;按场景选型要求在你的真实数据上测 | 关注公开数据集上的横向对比 |
| 模型微调(Fine-tuning) | 选型是"选已有的模型";微调是"改造模型使其适配你的数据" | 关注如何用自有数据提升特定任务的表现 |
| 按规模选型 | 按规模选型侧重参数量和部署条件;按场景选型侧重任务类型和业务需求 | 关注硬件资源、参数量与部署环境的匹配 |
核心区别:
| 常见误区 | 正确理解 |
|---|---|
| Benchmark 排名第一就一定最适合我的场景 | 公开 Benchmark(如 MMLU、HumanEval)用的是标准测试集,和你的真实业务数据可能差别很大。一个在 MMLU 上排名第五的模型,在你的中文法律文档场景上可能比第一名好 |
| 大模型一定比小模型好 | 对于简单任务(分类、实体提取、格式化),调优过的 7B 模型可能和 70B 模型表现相当,但推理成本低 10 倍以上。一个经过微调的小模型在特定领域往往能超越通用大模型 |
| 选定一个模型就不用再换了 | LLM 市场每季度都有重大更新。2025 年的最优选可能在 2026 年被新模型超越。建议至少每季度重新评估一次 |
| 越贵的模型越好 | Claude Opus 4.1 的输出价格是 DeepSeek V4 的 1000 倍,但并非所有任务都需要这个级别的能力。"够用就好"是选型的核心原则 |
参考答案:
性能(准确率)、成本、速度三者构成不可能三角。高性能模型(如 Claude Opus)参数量大、计算资源消耗高,因此价格贵且推理慢;低成本模型(如 DeepSeek V4)通过减小参数量或优化架构降低成本,但在复杂推理任务上表现会下降。没有模型能同时做到最准确、最便宜、最快,只能在三者之间做取舍。
参考答案:
选模型 B。假设平均每次请求消耗约 500 个 Token(输入+输出),500 万次请求共计 25 亿 Token。模型 A 月度费用约 37,500 美元,远超预算。模型 B 月度费用约 1,250 美元,在预算内。虽然准确率低 6 个百分点,但客服场景通常可以通过 prompt 优化、人工兜底等方式弥补。如果准确率差距不可接受,可以考虑 Model Routing 方案:简单问题走模型 B,复杂问题升级到模型 A,在预算内最大化整体准确率。
参考答案:
预算分配建议:代码审查 50%,文案生成 30%,知识库问答 20%。因为代码审查的单次请求 Token 消耗最大(需要读完整代码)且质量要求最高,应该分配最多预算。
OpenAI. "Models Overview." OpenAI Platform Documentation. https://platform.openai.com/docs/models
Anthropic. "Claude Models Overview." Claude API Documentation. https://docs.anthropic.com/en/docs/about-claude/models
The Complete Guide to LLM Selection (2025). Alex Harris. https://alexdharris.substack.com/p/the-complete-guide-to-llm-selection
The Model Selection Trap: Choosing the Right LLM for Agentic Systems (2026). Medium. https://medium.com/@nraman.n6/the-model-selection-trap-choosing-the-right-llm-for-agentic-systems-2026-be2817c2e533
Intelligent LLM Routing in Enterprise AI. Requesty Blog. https://www.requesty.ai/blog/intelligent-llm-routing-in-enterprise-ai-uptime-cost-efficiency-and-model
Cost- and Latency-Constrained Routing for LLMs (SCORE). Harvard. http://minlanyu.seas.harvard.edu/writeup/sllm25-score.pdf
优先展示同分类且标签更接近的内容,方便继续串联学习。
根据参数规模选择合适的 LLM,平衡性能、成本和硬件需求
在个人电脑或私有服务器上运行大语言模型的核心概念与工具选择。
大模型从训练完成到上线服务的推理部署架构体系,覆盖内存管理、调度和扩展