Ragas自动化评测内部流程,如下图所示:


📈 输出结果

📐 Ragas 四大指标计算

📊 输入数据

Faithfulness (答案忠诚度)

Context Precision (上下文精确率)

Context Recall (上下文召回率)

Answer Correctness (答案正确性)

Question
(用户问题)

Answer
(RAG系统输出)

Contexts
(检索召回文档)

Ground Truth
(人工标注标准)

语义相似度
🤖 Embedding模型
余弦相似度

事实准确度
🤖 LLM评委
观点提取+比对

加权求和
0.25*语义 + 0.75*事实

GT观点分解
🤖 LLM评委

逐观点验证
Contexts支撑?

得分=支撑观点/GT总观点

逐Context相关性判断
🤖 LLM评委

计算Precision@K

平均Precision

Answer观点提取
🤖 LLM评委

逐观点核实
Contexts溯源

得分=可支撑观点/总观点

各项分数
0-1标准化

明细数据
失败案例标注

聚合报告
趋势对比


指标 概述 含义说明
Answer Correctness (答案正确性) 生成答案有多"对" 衡量RAG生成的答案与标准答案的整体正确程度,兼顾语义相近和事实准确
Context Recall (上下文召回率) 检索有多"全" 衡量检索召回的文档是否覆盖了回答问题所需的全部信息(查全率)
Context Precision (上下文精确率) 检索有多"准" 衡量检索召回的文档中有多少比例是真正相关的(查准率),相关内容排序越靠前得分越高
Faithfulness (答案忠实度) 生成有多"真" 衡量生成的答案内容是否忠实于检索文档,检测幻觉/编造内容

(END)

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐