LeoSun456 个人主页

@m0_64274936

LeoSun456

2026-06-11 20:29:41 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

LLM 幻觉检测的三种方法及代码实现

最终用Pytest+Allure搭了一套CI/CD流水线，能覆盖AI接口的特殊断言需求，并且在每次模型更新或Prompt改动时自动回归。AI接口返回的是概率性结果，同一个请求跑两次，回答可能不一样。传统接口校验"等于什么"，AI接口校验"像不像""有没有不该有的""是不是在合理范围内"。这套方案在我们的RAG问答系统和Agent工具调用链路上跑了半年，累计发现37个线上问题，其中11个是传统测试没

#pytest

用 Ragas 评估 RAG 召回质量的实战：从“感觉还行“到“数据说话“

一次问答最好记录：requestId、user_query、rewrite_query、retrieved_chunks、rerank_score、final_context、prompt、model_answer、model_name、temperature、token_usage、latency、知识库版本、Prompt 版本、Embedding 模型版本、切片策略版本。RAG 系统的问题是分

#数据库 #数据挖掘 #人工智能

到底了