logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

开源 RL 框架 SWITCH 论文解读:用两个边界 token 把潜空间推理拉回 GRPO 训练,Qwen3-8B 在 MATH-500 上 79.3% / GSM8K 89.2%

SWITCH 用一对 `<swi>/</swi>` 边界 token,把 Coconut 风格的潜空间推理重新接回 on-policy GRPO 训练;在 Qwen3-8B 上 MATH-500 拿到 79.3%、GSM8K 89.2%,论文 + 代码 + LoRA 权重 + 数据集全开源。

文章图片
#开源#机器人#机器学习
开源代码模型 Kimi K2.7-Code 首发测评:代码能力暴涨 21.8%,推理 token 反而少了 30%

2026-06-12,月之暗面发布并开源了最新代码模型 Kimi-K2.7-Code。同一天,小米开源了 MiMo Code,摩尔线程开源了 MusaCoder——三款国产开源代码模型同一天发布,这不是巧合。我用了一个下午深度体验 K2.7-Code,结论是:它是三款里最均衡的开源通用代码模型,也是目前国产开源模型里最值得日常切换的选择。

文章图片
#功能测试
开源代码模型 Kimi K2.7-Code 首发测评:代码能力暴涨 21.8%,推理 token 反而少了 30%

2026-06-12,月之暗面发布并开源了最新代码模型 Kimi-K2.7-Code。同一天,小米开源了 MiMo Code,摩尔线程开源了 MusaCoder——三款国产开源代码模型同一天发布,这不是巧合。我用了一个下午深度体验 K2.7-Code,结论是:它是三款里最均衡的开源通用代码模型,也是目前国产开源模型里最值得日常切换的选择。

文章图片
#功能测试
开源人形机器人 RL 框架 Humanoid-Gym 论文解读:零样本 Sim2Real,从原理到本地部署

本文介绍了开源人形机器人强化学习框架Humanoid-Gym,该框架实现了零样本仿真到真实(Sim2Real)迁移,无需真实微调即可直接部署。通过域随机化、五分量奖励函数、高并行训练和Sim2Sim验证等关键技术,该框架在多种真实场景下实现了稳定的双足行走。文章详细说明了本地部署流程,包括环境配置、训练和评估步骤,并讨论了其适用场景与局限性。Humanoid-Gym作为完全开源的项目,已成为人形机

文章图片
#开源#机器人#机器学习
到底了