
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Composer 2 是 Cursor 团队针对Agentic 软件工程场景专门训练的模型。继续预训练强化代码知识 +大规模强化学习提升端到端任务完成能力。:61.3%(对比上一代 Composer 1.5 的 44.2%,相对提升 37%:73.7%:61.7%图1:Composer 2 与多个前沿模型在 CursorBench-3、SWE-bench Multilingual、Terminal

AI自主安全研究:Claude发现超越人类方法的攻击算法 这篇论文展示了Claude AI自主进行安全研究的突破性成果。研究人员让Claude Code作为自主研究智能体,在包含33种现有攻击方法的环境中独立探索新的对抗攻击算法。令人惊讶的是,Claude设计的方法在多项测试中大幅超越人类成果:在GPT-OSS-Safeguard-20B模型上实现40%的越狱成功率(人类方法≤10%),在Meta

Claude Code多Agent协作架构核心解析 本文深入剖析了Claude Code从单Agent到多Agent团队的协作架构设计。系统通过持久化任务DAG解决任务依赖管理问题,每个任务以JSON文件存储依赖关系,自动解锁下游任务。采用线程+通知队列实现后台任务并行化,保持主循环单线程的简洁性。团队协作基于持久身份+JSONL邮箱机制,通过config.json名册管理成员,JSONL文件实现

摘要 Claude Code的核心机制仅需30行Python代码实现:一个while循环+工具调度表构成完整的Agent骨架。其三层架构包括: 基础循环:LLM调用工具→执行→结果返回→循环直到模型主动停止 工具系统:通过dispatch map字典扩展工具,保持循环不变,每个工具自带路径沙箱安全机制 任务规划:TodoWrite机制防止模型偏离任务,采用状态流转和自动提醒确保专注 关键设计特点:

摘要 Claude Code通过三大机制解决上下文窗口限制问题: Subagent机制:将复杂子任务隔离到独立子进程中,父节点仅保留最终摘要,避免中间过程污染主上下文。子Agent禁止递归调用,防止指数级爆炸。 Skill系统:采用"廉价索引+按需加载"的两层知识管理,系统提示中只保留技能目录,实际内容使用时才注入,显著降低固定开销。 三层上下文压缩: micro_compac

研究揭示:LLM作为优化器的性能差异主要取决于局部精修能力而非参数量 法国格勒诺布尔大学团队通过15个模型在8个任务上的大规模实验(72K+候选解)发现: Zero-shot能力仅解释10.3%性能差异,关键指标是模型作为"局部精修器"的稳定性 突破率(Breakthrough Rate)比新颖性更重要:持续小步改进的模型(如Mistral-24B)优于偶尔大跃进的模型 性价比王者:Mistral

本文提出GFT方法,从RL视角重新审视SFT训练,发现SFT本质上是一种奖励极度稀疏且重要性权重不稳定的RL形式。通过Group Advantage Learning解决奖励稀疏问题,利用Dynamic Coefficient Rectification控制梯度爆炸,在数学推理任务上显著提升模型性能。实验显示,GFT在10K数据上训练Qwen2.5-Math-1.5B模型,将MATH分数提升23.

摘要 Snowflake最新研究揭示了一个关键问题:当前多数检索模型对用户指令"假装听话"——它们只匹配主题而忽略约束条件。研究者提出"Dual-View"创新方法,通过指令极性反转技术,强制模型真正理解指令语义。具体做法是:对每个指令负样本,用LLM生成一条互补指令,使原本的正负样本角色互换。实验显示,仅305M参数的小模型在指令跟随检索任务上性能提升45%,超越多个更大规模的通用模型。该方法特

摘要 蚂蚁集团Venus团队提出的DR-Venus模型在Deep Research领域取得突破性进展。该研究通过仅使用1万条开源SFT数据和1千条RL数据,基于Qwen3-4B基座模型,开发出性能超越9B以下所有开源Agent的4B小模型。关键创新包括:1)SFT阶段对长轨迹进行5倍加权重采样,显著提升长程任务表现;2)RL阶段采用基于信息增益的IGPO算法替代传统GRPO,实现turn-leve

摘要 AJ-Bench论文提出了一种新型Agent-as-a-Judge评估框架,解决了传统LLM-as-a-Judge在复杂任务评估中的局限性。通过为Judge配备浏览器、文件系统等60种工具,使其能够主动验证环境状态,显著提升了评估准确性。实验表明,开启Agentic模式后,模型平均F1提升13个百分点,其中deepseek-v3.2表现甚至超过未使用工具的GPT-5等大模型。该研究揭示了当前








