Eric Huang 个人主页

@hhjqhbd01

Eric Huang

2023-05-30 22:21:28 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

SWE-bench leaderboard（2026.02）案例学习

摘要：本文通过分析Claude-4.5-Opus在SWE-bench中修复astropy项目bug的真实轨迹，揭示了大型语言模型作为代码代理(Code Agent)的工程策略。研究发现，Code Agent展现出与人类工程师相似的调试流程：代码库导航、最小上下文构建、问题复现、根因分析、补丁生成和验证。模型能够进行策略切换和环境自修复等复杂操作，表明Code Agent本质上是在学习软件工程策略分

#学习 #机器学习 #人工智能 +3

DeepSeek-Coder-V2：打破闭源壁垒的代码智能模型

本文围绕开源MoE代码大模型DeepSeek-Coder-V2展开深度解读，该模型基于DeepSeek-V2中间 checkpoint，新增6万亿词元持续预训练，搭配60%代码、10%数学、30%自然语言的专属语料，实现编码、数学推理能力大幅跃升，同时保留优质通用语言能力。模型将编程语言支持拓展至338种，上下文长度拉满至128K，在HumanEval、MATH等多项基准测试中，性能比肩甚至超越G

#学习 #机器学习 #人工智能 +3

DeepSeek-Coder-V2：打破闭源壁垒的代码智能模型

#学习 #机器学习 #人工智能 +3

ARPO：GUI智能体的强化学习新突破

本文介绍了一种基于强化学习的GUI智能体训练方法ARPO，通过在UI-TARS-1.57B模型上应用GRPO强化学习框架，结合256个并行虚拟环境的大规模rollout系统，显著提升了智能体在OSWorld基准测试中的表现。实验结果显示，该方法在标准设置下任务成功率提升6.4%，在更严格的OSWorld Hard设置下提升5.6%。关键创新包括引入经验回放机制保存高价值轨迹、结构化轨迹分组优化策略

#学习 #机器学习 #人工智能 +3

到底了