logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强LLM不一定是好“优化器“:决定胜负的不是参数量,而是“局部精修“的能力

研究揭示:LLM作为优化器的性能差异主要取决于局部精修能力而非参数量 法国格勒诺布尔大学团队通过15个模型在8个任务上的大规模实验(72K+候选解)发现: Zero-shot能力仅解释10.3%性能差异,关键指标是模型作为"局部精修器"的稳定性 突破率(Breakthrough Rate)比新颖性更重要:持续小步改进的模型(如Mistral-24B)优于偶尔大跃进的模型 性价比王者:Mistral

文章图片
#人工智能#机器学习
强LLM不一定是好“优化器“:决定胜负的不是参数量,而是“局部精修“的能力

研究揭示:LLM作为优化器的性能差异主要取决于局部精修能力而非参数量 法国格勒诺布尔大学团队通过15个模型在8个任务上的大规模实验(72K+候选解)发现: Zero-shot能力仅解释10.3%性能差异,关键指标是模型作为"局部精修器"的稳定性 突破率(Breakthrough Rate)比新颖性更重要:持续小步改进的模型(如Mistral-24B)优于偶尔大跃进的模型 性价比王者:Mistral

文章图片
#人工智能#机器学习
GFT:把 SFT 当成“极度稀疏奖励 + 不稳定重要性权重“的 RL 重做一遍

本文提出GFT方法,从RL视角重新审视SFT训练,发现SFT本质上是一种奖励极度稀疏且重要性权重不稳定的RL形式。通过Group Advantage Learning解决奖励稀疏问题,利用Dynamic Coefficient Rectification控制梯度爆炸,在数学推理任务上显著提升模型性能。实验显示,GFT在10K数据上训练Qwen2.5-Math-1.5B模型,将MATH分数提升23.

文章图片
#人工智能#算法#机器学习
你的检索器其实在“假装“听指令——Snowflake 用一个反转技巧把 305M 小模型拉到 SOTA

摘要 Snowflake最新研究揭示了一个关键问题:当前多数检索模型对用户指令"假装听话"——它们只匹配主题而忽略约束条件。研究者提出"Dual-View"创新方法,通过指令极性反转技术,强制模型真正理解指令语义。具体做法是:对每个指令负样本,用LLM生成一条互补指令,使原本的正负样本角色互换。实验显示,仅305M参数的小模型在指令跟随检索任务上性能提升45%,超越多个更大规模的通用模型。该方法特

文章图片
#人工智能#机器学习#深度学习
DR-Venus:4B 小模型靠 1 万条开源数据,把 Deep Research 干到 9B 全员碾压

摘要 蚂蚁集团Venus团队提出的DR-Venus模型在Deep Research领域取得突破性进展。该研究通过仅使用1万条开源SFT数据和1千条RL数据,基于Qwen3-4B基座模型,开发出性能超越9B以下所有开源Agent的4B小模型。关键创新包括:1)SFT阶段对长轨迹进行5倍加权重采样,显著提升长程任务表现;2)RL阶段采用基于信息增益的IGPO算法替代传统GRPO,实现turn-leve

文章图片
#人工智能#深度学习#开发语言
Agent 当裁判光看 Trajectory 不够,它得自己去环境里查证 —— AJ-Bench 论文解读

摘要 AJ-Bench论文提出了一种新型Agent-as-a-Judge评估框架,解决了传统LLM-as-a-Judge在复杂任务评估中的局限性。通过为Judge配备浏览器、文件系统等60种工具,使其能够主动验证环境状态,显著提升了评估准确性。实验表明,开启Agentic模式后,模型平均F1提升13个百分点,其中deepseek-v3.2表现甚至超过未使用工具的GPT-5等大模型。该研究揭示了当前

文章图片
#microsoft#人工智能#机器学习
Agent 当裁判光看 Trajectory 不够,它得自己去环境里查证 —— AJ-Bench 论文解读

摘要 AJ-Bench论文提出了一种新型Agent-as-a-Judge评估框架,解决了传统LLM-as-a-Judge在复杂任务评估中的局限性。通过为Judge配备浏览器、文件系统等60种工具,使其能够主动验证环境状态,显著提升了评估准确性。实验表明,开启Agentic模式后,模型平均F1提升13个百分点,其中deepseek-v3.2表现甚至超过未使用工具的GPT-5等大模型。该研究揭示了当前

文章图片
#microsoft#人工智能#机器学习
AgentSPEX:当 Agent 框架开始把“控制流“从 Python 里抠出来

AgentSPEX提出了一种基于YAML的声明式Agent框架,通过将控制流、状态管理等从Python代码中解耦,实现了工作流配置的可读性和可维护性。该框架采用11个核心原语(如task/step区分、call组合等)描述Agent行为,并配套完整的执行环境(沙箱、断点续跑等)。实验显示其在模型版本更迭时展现出更强的鲁棒性(SWE-Bench上仅下降0.2%)。这种"工作流即配置"的设计降低了领域

文章图片
#python#开发语言
AgentSPEX:当 Agent 框架开始把“控制流“从 Python 里抠出来

AgentSPEX提出了一种基于YAML的声明式Agent框架,通过将控制流、状态管理等从Python代码中解耦,实现了工作流配置的可读性和可维护性。该框架采用11个核心原语(如task/step区分、call组合等)描述Agent行为,并配套完整的执行环境(沙箱、断点续跑等)。实验显示其在模型版本更迭时展现出更强的鲁棒性(SWE-Bench上仅下降0.2%)。这种"工作流即配置"的设计降低了领域

文章图片
#python#开发语言
AgentSearchBench:在 1 万个真实 Agent 里挑一个能干活的,到底有多难?

文章摘要 这篇论文提出了AgentSearchBench,一个针对AI Agent搜索的全新基准测试。研究团队从GPT Store等平台收集了9,759个真实Agent,构建了3,211个任务和66,740次执行评测。研究发现当前基于语义相似度的搜索方法存在严重局限——排名靠前的Agent与实际性能差距显著(NDCG@5从0.236降至0.022)。论文揭示了Agent搜索与传统工具检索的本质差异

文章图片
#python#人工智能#开发语言
    共 178 条
  • 1
  • 2
  • 3
  • 18
  • 请选择