logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek-Coder-V2:打破闭源壁垒的代码智能模型

本文围绕开源MoE代码大模型DeepSeek-Coder-V2展开深度解读,该模型基于DeepSeek-V2中间 checkpoint,新增6万亿词元持续预训练,搭配60%代码、10%数学、30%自然语言的专属语料,实现编码、数学推理能力大幅跃升,同时保留优质通用语言能力。模型将编程语言支持拓展至338种,上下文长度拉满至128K,在HumanEval、MATH等多项基准测试中,性能比肩甚至超越G

文章图片
#学习#机器学习#人工智能 +3
ARPO:GUI智能体的强化学习新突破

本文介绍了一种基于强化学习的GUI智能体训练方法ARPO,通过在UI-TARS-1.57B模型上应用GRPO强化学习框架,结合256个并行虚拟环境的大规模rollout系统,显著提升了智能体在OSWorld基准测试中的表现。实验结果显示,该方法在标准设置下任务成功率提升6.4%,在更严格的OSWorld Hard设置下提升5.6%。关键创新包括引入经验回放机制保存高价值轨迹、结构化轨迹分组优化策略

#学习#机器学习#人工智能 +3
到底了