多模态 OCR(Vision Language Model OCR)
用视觉语言大模型直接"看图识字",不只提取字符,还能理解文档结构和语义。
围绕同一主题聚合相关知识卡片,帮助你从核心概念延伸到工具、模式与实践,形成连续的学习路径。
分类概览
适合先按主题连续阅读;如果你已经有明确问题,也可以进入搜索页,用关键词快速定位相关内容。
用视觉语言大模型直接"看图识字",不只提取字符,还能理解文档结构和语义。
用于系统化测量 LLM/Agent 系统输出质量与行为可靠性的指标体系和方法论
开源 AI 可观测性平台,基于 OpenTelemetry 提供 LLM 应用的 Tracing、评估和 Prompt 管理。
以评估为核心的 AI 应用质量管理平台,支持实验追踪、自动评分、数据集版本控制和 Prompt 优化。
W&B 推出的 AI 应用可观测性平台,用装饰器自动追踪 LLM 调用链路、评估模型效果。
从模板匹配到深度学习,传统 OCR 的核心流水线与三大主流工具的原理拆解
5 款主流 LLM 可观测性工具的核心差异、选型决策和适用场景对比。
将原始混乱数据转化为干净、结构化、模型可用格式的系统化过程
管理、版本控制和评估 LLM 提示词的平台工具,支持协作编辑、A/B 测试和多环境部署。
将长文本切成小块供向量检索使用,是 RAG 系统的必备预处理环节。
将文本自动转换为自然人声的技术,支持多语言、情感控制和语音克隆
将 PDF、Word 等非结构化文档转为结构化数据的工具,是 RAG 系统的第一道工序。
对向量数据进行高效索引和近似最近邻检索的开源库(FAISS、HNSWlib、Annoy)及核心算法对比
能实时听说、理解意图并执行任务的语音智能体系统,支持自然对话与中断。
集文档处理、向量检索、问答生成于一体的低代码/零代码 RAG 平台,让非技术人员也能快速搭建 AI 知识问答系统。
Agent 和 RAG 系统的核心评估工具,涵盖 RAGAS、DeepEval、TruLens、Promptfoo 等主流框架
通过多维量化指标对 Agent 的工具调用、推理、任务完成和安全性进行系统化评估
统一多家 LLM 提供商的 API 接口,实现模型路由、故障转移和成本追踪。
把文本变成数字向量的工具,是语义搜索和 RAG 系统的基础组件。
开源 LLM 可观测性平台,提供追踪、Prompt 管理、评估和成本监控,支持自托管。
LangChain 官方可观测性与评估平台,提供端到端追踪、自动化评估和生产监控。
开源 PDF 文档解析工具,将复杂 PDF 转换为 Markdown/JSON,适合 RAG 系统的文档预处理。
系统化评估 RAG 系统的检索质量与生成质量,定位瓶颈并指导优化。
OpenAI 开源的自动语音识别系统,支持 99 种语言,本地运行无需联网。