AI 智能体问答 Ragas 自动化评测内部流程图

Ragas自动化评测流程通过四大核心指标评估RAG系统性能。输入包括用户问题、系统回答、召回文档和人工标注标准。评测指标包括：答案正确性（结合语义相似度和事实准确度）、上下文召回率（覆盖度）、上下文精确率（相关文档比例）和答案忠实度（内容溯源）。各指标通过LLM评委和算法计算后，输出标准化分数、明细数据和聚合报告。该流程全面评估RAG系统的准确性、召回能力和可信度。

catoop

488人浏览 · 2026-04-23 17:10:52

catoop · 2026-04-23 17:10:52 发布

Ragas自动化评测内部流程，如下图所示：

指标	概述	含义说明
Answer Correctness (答案正确性)	生成答案有多"对"	衡量RAG生成的答案与标准答案的整体正确程度，兼顾语义相近和事实准确
Context Recall (上下文召回率)	检索有多"全"	衡量检索召回的文档是否覆盖了回答问题所需的全部信息（查全率）
Context Precision (上下文精确率)	检索有多"准"	衡量检索召回的文档中有多少比例是真正相关的（查准率），相关内容排序越靠前得分越高
Faithfulness (答案忠实度)	生成有多"真"	衡量生成的答案内容是否忠实于检索文档，检测幻觉/编造内容