
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
信息访问 vs. 推理能力:LLM Agent 性能归因的实验分析
ContextEval 是首个将“上下文可见性”作为受控变量的LLM agent评估框架。实验发现:agent性能提升多源于信息增加,而非推理增强;其行为更接近先验驱动的纠错系统,而非真正优化器——甚至常不如随机搜索。

到底了

该用户还未填写简介
暂无可提供的服务
ContextEval 是首个将“上下文可见性”作为受控变量的LLM agent评估框架。实验发现:agent性能提升多源于信息增加,而非推理增强;其行为更接近先验驱动的纠错系统,而非真正优化器——甚至常不如随机搜索。
