
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
研究揭示:LLM作为优化器的性能差异主要取决于局部精修能力而非参数量 法国格勒诺布尔大学团队通过15个模型在8个任务上的大规模实验(72K+候选解)发现: Zero-shot能力仅解释10.3%性能差异,关键指标是模型作为"局部精修器"的稳定性 突破率(Breakthrough Rate)比新颖性更重要:持续小步改进的模型(如Mistral-24B)优于偶尔大跃进的模型 性价比王者:Mistral

研究揭示:LLM作为优化器的性能差异主要取决于局部精修能力而非参数量 法国格勒诺布尔大学团队通过15个模型在8个任务上的大规模实验(72K+候选解)发现: Zero-shot能力仅解释10.3%性能差异,关键指标是模型作为"局部精修器"的稳定性 突破率(Breakthrough Rate)比新颖性更重要:持续小步改进的模型(如Mistral-24B)优于偶尔大跃进的模型 性价比王者:Mistral

本文提出GFT方法,从RL视角重新审视SFT训练,发现SFT本质上是一种奖励极度稀疏且重要性权重不稳定的RL形式。通过Group Advantage Learning解决奖励稀疏问题,利用Dynamic Coefficient Rectification控制梯度爆炸,在数学推理任务上显著提升模型性能。实验显示,GFT在10K数据上训练Qwen2.5-Math-1.5B模型,将MATH分数提升23.

摘要 Snowflake最新研究揭示了一个关键问题:当前多数检索模型对用户指令"假装听话"——它们只匹配主题而忽略约束条件。研究者提出"Dual-View"创新方法,通过指令极性反转技术,强制模型真正理解指令语义。具体做法是:对每个指令负样本,用LLM生成一条互补指令,使原本的正负样本角色互换。实验显示,仅305M参数的小模型在指令跟随检索任务上性能提升45%,超越多个更大规模的通用模型。该方法特

摘要 蚂蚁集团Venus团队提出的DR-Venus模型在Deep Research领域取得突破性进展。该研究通过仅使用1万条开源SFT数据和1千条RL数据,基于Qwen3-4B基座模型,开发出性能超越9B以下所有开源Agent的4B小模型。关键创新包括:1)SFT阶段对长轨迹进行5倍加权重采样,显著提升长程任务表现;2)RL阶段采用基于信息增益的IGPO算法替代传统GRPO,实现turn-leve

摘要 AJ-Bench论文提出了一种新型Agent-as-a-Judge评估框架,解决了传统LLM-as-a-Judge在复杂任务评估中的局限性。通过为Judge配备浏览器、文件系统等60种工具,使其能够主动验证环境状态,显著提升了评估准确性。实验表明,开启Agentic模式后,模型平均F1提升13个百分点,其中deepseek-v3.2表现甚至超过未使用工具的GPT-5等大模型。该研究揭示了当前

摘要 AJ-Bench论文提出了一种新型Agent-as-a-Judge评估框架,解决了传统LLM-as-a-Judge在复杂任务评估中的局限性。通过为Judge配备浏览器、文件系统等60种工具,使其能够主动验证环境状态,显著提升了评估准确性。实验表明,开启Agentic模式后,模型平均F1提升13个百分点,其中deepseek-v3.2表现甚至超过未使用工具的GPT-5等大模型。该研究揭示了当前

AgentSPEX提出了一种基于YAML的声明式Agent框架,通过将控制流、状态管理等从Python代码中解耦,实现了工作流配置的可读性和可维护性。该框架采用11个核心原语(如task/step区分、call组合等)描述Agent行为,并配套完整的执行环境(沙箱、断点续跑等)。实验显示其在模型版本更迭时展现出更强的鲁棒性(SWE-Bench上仅下降0.2%)。这种"工作流即配置"的设计降低了领域

AgentSPEX提出了一种基于YAML的声明式Agent框架,通过将控制流、状态管理等从Python代码中解耦,实现了工作流配置的可读性和可维护性。该框架采用11个核心原语(如task/step区分、call组合等)描述Agent行为,并配套完整的执行环境(沙箱、断点续跑等)。实验显示其在模型版本更迭时展现出更强的鲁棒性(SWE-Bench上仅下降0.2%)。这种"工作流即配置"的设计降低了领域

文章摘要 这篇论文提出了AgentSearchBench,一个针对AI Agent搜索的全新基准测试。研究团队从GPT Store等平台收集了9,759个真实Agent,构建了3,211个任务和66,740次执行评测。研究发现当前基于语义相似度的搜索方法存在严重局限——排名靠前的Agent与实际性能差距显著(NDCG@5从0.236降至0.022)。论文揭示了Agent搜索与传统工具检索的本质差异








