
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
DeepSeek-Coder-V2:打破闭源壁垒的代码智能模型
本文围绕开源MoE代码大模型DeepSeek-Coder-V2展开深度解读,该模型基于DeepSeek-V2中间 checkpoint,新增6万亿词元持续预训练,搭配60%代码、10%数学、30%自然语言的专属语料,实现编码、数学推理能力大幅跃升,同时保留优质通用语言能力。模型将编程语言支持拓展至338种,上下文长度拉满至128K,在HumanEval、MATH等多项基准测试中,性能比肩甚至超越G

ARPO:GUI智能体的强化学习新突破
本文介绍了一种基于强化学习的GUI智能体训练方法ARPO,通过在UI-TARS-1.57B模型上应用GRPO强化学习框架,结合256个并行虚拟环境的大规模rollout系统,显著提升了智能体在OSWorld基准测试中的表现。实验结果显示,该方法在标准设置下任务成功率提升6.4%,在更严格的OSWorld Hard设置下提升5.6%。关键创新包括引入经验回放机制保存高价值轨迹、结构化轨迹分组优化策略
到底了








