logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepEval:大模型/智能体评测框架

DeepEval是一款基于Python的开源LLM评测框架,采用LLM-as-a-judge模式评估测试对象。本文介绍了如何安装DeepEval(v3.7.7)并通过自定义模型接入阿里的通义千问(Qwen)模型。演示了创建自定义Qwen评估模型和编写测试用例的完整流程,包括正确性评估指标(GEval)的使用。

文章图片
#单元测试
到底了