按场景选型(模型选择指南)
根据任务场景在性能、成本、延迟三角中找到最优模型组合
围绕同一主题聚合相关知识卡片,帮助你从核心概念延伸到工具、模式与实践,形成连续的学习路径。
分类概览
适合先按主题连续阅读;如果你已经有明确问题,也可以进入搜索页,用关键词快速定位相关内容。
根据任务场景在性能、成本、延迟三角中找到最优模型组合
根据参数规模选择合适的 LLM,平衡性能、成本和硬件需求
在个人电脑或私有服务器上运行大语言模型的核心概念与工具选择。
大模型从训练完成到上线服务的推理部署架构体系,覆盖内存管理、调度和扩展
大模型从"能跑通"到"能上线"的完整工程体系,涵盖硬件、引擎、服务、调度四层
让模型持续吸收新知识而不遗忘旧知识的训练范式,核心挑战是灾难性遗忘。
通过人类或 AI 反馈让模型行为符合人类价值观的训练技术体系
通过量化、缓存优化、解码加速等手段,降低大模型推理的显存占用和延迟
通过路由器动态选择少量专家子网络处理每个 Token,用更多参数换更强能力而不增加推理成本。
从效率、能力、安全、应用四个维度,梳理 2025-2026 年 AI 与大模型的前沿发展方向。
主流开源大模型系列总览,覆盖选型、架构差异、许可证与部署工具链
从 RNN 到 Transformer 再到 MoE,理解现代大模型架构的演进脉络
通过标准化基准和量化指标,系统衡量大语言模型在各维度上的真实能力
用自然语言告诉 AI 要找什么物体,AI 在图像中定位并框出它们,无需预定义类别。
同时理解图像和文本并生成语言输出的多模态模型,是给 LLM 装上"眼睛"的核心技术
用单一模型统一处理和生成文本、图像、音频、视频等多种模态的架构范式
让大语言模型跑得更快、更省显存的专用软件引擎,是模型从训练到上线的关键一环
通过训练时强化学习和推理时计算扩展,让 LLM 学会"先想再答"的推理范式
Transformer 中让模型理解词序的关键机制,从正弦编码到 RoPE、ALiBi 的演进与对比。
大规模语言模型从零开始获取通用语言能力的核心训练技术体系
先在海量文本上学通用语言知识,再用少量数据适配具体任务的两阶段训练范式
通过 API 调用云端大模型,无需自建 GPU 集群,按量付费、即开即用。
让大语言模型突破固定上下文窗口限制、有效利用超长输入的一组核心技术
让 LLM 从 4K 扩展到百万级 token 窗口的核心技术体系,涵盖位置编码外推、注意力优化、KV 缓存压缩三大方向
用"指令-回答"数据对预训练模型进行微调,让模型学会听懂并执行人类指令。
通过分块计算、KV 共享、稀疏模式等手段优化 Transformer 注意力的速度和内存瓶颈。
LLM 通过工具调用扩展能力边界,从"只能说"进化到"能做事"的核心机制。
AI 计算硬件的类型、核心指标与选型逻辑,帮助开发者理解"用什么跑模型"。
BERT 及其派生模型的核心原理、架构差异与选型指南
智源开源的大模型系统软件栈,支持多种芯片一键部署推理服务
OpenAI 从 GPT-1 到 GPT-5 的完整演进:参数扩展、对齐微调、多模态统一、推理增强四个阶段
高性能 LLM 推理服务框架,通过 RadixAttention 前缀复用和结构化输出约束大幅提升推理效率。
基于 PagedAttention 的高性能 LLM 推理引擎,显著提升吞吐量和内存利用率。