logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Cursor 自研 Composer 2:1万亿参数 MoE + 强化学习,编程 Agent 性能暴涨 61%

Composer 2 是 Cursor 团队针对Agentic 软件工程场景专门训练的模型。继续预训练强化代码知识 +大规模强化学习提升端到端任务完成能力。:61.3%(对比上一代 Composer 1.5 的 44.2%,相对提升 37%:73.7%:61.7%图1:Composer 2 与多个前沿模型在 CursorBench-3、SWE-bench Multilingual、Terminal

文章图片
#composer#php#机器学习 +2
当AI学会自己搞安全研究:Claude自主发现的攻击算法,把30多种人类方法全干趴了

AI自主安全研究:Claude发现超越人类方法的攻击算法 这篇论文展示了Claude AI自主进行安全研究的突破性成果。研究人员让Claude Code作为自主研究智能体,在包含33种现有攻击方法的环境中独立探索新的对抗攻击算法。令人惊讶的是,Claude设计的方法在多项测试中大幅超越人类成果:在GPT-OSS-Safeguard-20B模型上实现40%的越狱成功率(人类方法≤10%),在Meta

文章图片
#人工智能#安全#算法
从一个Agent到一支团队:Claude Code多Agent协作架构全解——源码精读(三)

Claude Code多Agent协作架构核心解析 本文深入剖析了Claude Code从单Agent到多Agent团队的协作架构设计。系统通过持久化任务DAG解决任务依赖管理问题,每个任务以JSON文件存储依赖关系,自动解锁下游任务。采用线程+通知队列实现后台任务并行化,保持主循环单线程的简洁性。团队协作基于持久身份+JSONL邮箱机制,通过config.json名册管理成员,JSONL文件实现

文章图片
#架构#人工智能#自然语言处理 +1
30行代码,就是一个完整的AI Agent——Claude Code源码精读(一)

摘要 Claude Code的核心机制仅需30行Python代码实现:一个while循环+工具调度表构成完整的Agent骨架。其三层架构包括: 基础循环:LLM调用工具→执行→结果返回→循环直到模型主动停止 工具系统:通过dispatch map字典扩展工具,保持循环不变,每个工具自带路径沙箱安全机制 任务规划:TodoWrite机制防止模型偏离任务,采用状态流转和自动提醒确保专注 关键设计特点:

文章图片
#人工智能#算法#机器学习
上下文撑破之前,Claude Code 如何“清理记忆“——源码精读(二)

摘要 Claude Code通过三大机制解决上下文窗口限制问题: Subagent机制:将复杂子任务隔离到独立子进程中,父节点仅保留最终摘要,避免中间过程污染主上下文。子Agent禁止递归调用,防止指数级爆炸。 Skill系统:采用"廉价索引+按需加载"的两层知识管理,系统提示中只保留技能目录,实际内容使用时才注入,显著降低固定开销。 三层上下文压缩: micro_compac

文章图片
#深度学习#人工智能#自然语言处理 +1
强LLM不一定是好“优化器“:决定胜负的不是参数量,而是“局部精修“的能力

研究揭示:LLM作为优化器的性能差异主要取决于局部精修能力而非参数量 法国格勒诺布尔大学团队通过15个模型在8个任务上的大规模实验(72K+候选解)发现: Zero-shot能力仅解释10.3%性能差异,关键指标是模型作为"局部精修器"的稳定性 突破率(Breakthrough Rate)比新颖性更重要:持续小步改进的模型(如Mistral-24B)优于偶尔大跃进的模型 性价比王者:Mistral

文章图片
#人工智能#机器学习
GFT:把 SFT 当成“极度稀疏奖励 + 不稳定重要性权重“的 RL 重做一遍

本文提出GFT方法,从RL视角重新审视SFT训练,发现SFT本质上是一种奖励极度稀疏且重要性权重不稳定的RL形式。通过Group Advantage Learning解决奖励稀疏问题,利用Dynamic Coefficient Rectification控制梯度爆炸,在数学推理任务上显著提升模型性能。实验显示,GFT在10K数据上训练Qwen2.5-Math-1.5B模型,将MATH分数提升23.

文章图片
#人工智能#算法#机器学习
你的检索器其实在“假装“听指令——Snowflake 用一个反转技巧把 305M 小模型拉到 SOTA

摘要 Snowflake最新研究揭示了一个关键问题:当前多数检索模型对用户指令"假装听话"——它们只匹配主题而忽略约束条件。研究者提出"Dual-View"创新方法,通过指令极性反转技术,强制模型真正理解指令语义。具体做法是:对每个指令负样本,用LLM生成一条互补指令,使原本的正负样本角色互换。实验显示,仅305M参数的小模型在指令跟随检索任务上性能提升45%,超越多个更大规模的通用模型。该方法特

文章图片
#人工智能#机器学习#深度学习
DR-Venus:4B 小模型靠 1 万条开源数据,把 Deep Research 干到 9B 全员碾压

摘要 蚂蚁集团Venus团队提出的DR-Venus模型在Deep Research领域取得突破性进展。该研究通过仅使用1万条开源SFT数据和1千条RL数据,基于Qwen3-4B基座模型,开发出性能超越9B以下所有开源Agent的4B小模型。关键创新包括:1)SFT阶段对长轨迹进行5倍加权重采样,显著提升长程任务表现;2)RL阶段采用基于信息增益的IGPO算法替代传统GRPO,实现turn-leve

文章图片
#人工智能#深度学习#开发语言
Agent 当裁判光看 Trajectory 不够,它得自己去环境里查证 —— AJ-Bench 论文解读

摘要 AJ-Bench论文提出了一种新型Agent-as-a-Judge评估框架,解决了传统LLM-as-a-Judge在复杂任务评估中的局限性。通过为Judge配备浏览器、文件系统等60种工具,使其能够主动验证环境状态,显著提升了评估准确性。实验表明,开启Agentic模式后,模型平均F1提升13个百分点,其中deepseek-v3.2表现甚至超过未使用工具的GPT-5等大模型。该研究揭示了当前

文章图片
#microsoft#人工智能#机器学习
    共 179 条
  • 1
  • 2
  • 3
  • 18
  • 请选择