
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
LLM 幻觉检测的三种方法及代码实现
最终用Pytest+Allure搭了一套CI/CD流水线,能覆盖AI接口的特殊断言需求,并且在每次模型更新或Prompt改动时自动回归。AI接口返回的是概率性结果,同一个请求跑两次,回答可能不一样。传统接口校验"等于什么",AI接口校验"像不像""有没有不该有的""是不是在合理范围内"。这套方案在我们的RAG问答系统和Agent工具调用链路上跑了半年,累计发现37个线上问题,其中11个是传统测试没
用 Ragas 评估 RAG 召回质量的实战:从“感觉还行“到“数据说话“
一次问答最好记录:requestId、user_query、rewrite_query、retrieved_chunks、rerank_score、final_context、prompt、model_answer、model_name、temperature、token_usage、latency、知识库版本、Prompt 版本、Embedding 模型版本、切片策略版本。RAG 系统的问题是分
到底了







