logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLM 幻觉检测的三种方法及代码实现

最终用Pytest+Allure搭了一套CI/CD流水线,能覆盖AI接口的特殊断言需求,并且在每次模型更新或Prompt改动时自动回归。AI接口返回的是概率性结果,同一个请求跑两次,回答可能不一样。传统接口校验"等于什么",AI接口校验"像不像""有没有不该有的""是不是在合理范围内"。这套方案在我们的RAG问答系统和Agent工具调用链路上跑了半年,累计发现37个线上问题,其中11个是传统测试没

#pytest
用 Ragas 评估 RAG 召回质量的实战:从“感觉还行“到“数据说话“

一次问答最好记录:requestId、user_query、rewrite_query、retrieved_chunks、rerank_score、final_context、prompt、model_answer、model_name、temperature、token_usage、latency、知识库版本、Prompt 版本、Embedding 模型版本、切片策略版本。RAG 系统的问题是分

#数据库#数据挖掘#人工智能
到底了