就好像是春天个人主页

@weixin_69779134

就好像是春天

2022-12-06 15:57:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

开源 RL 框架 SWITCH 论文解读：用两个边界 token 把潜空间推理拉回 GRPO 训练，Qwen3-8B 在 MATH-500 上 79.3% / GSM8K 89.2%

SWITCH 用一对 `<swi>/</swi>` 边界 token，把 Coconut 风格的潜空间推理重新接回 on-policy GRPO 训练；在 Qwen3-8B 上 MATH-500 拿到 79.3%、GSM8K 89.2%，论文 + 代码 + LoRA 权重 + 数据集全开源。

#开源 #机器人 #机器学习

开源代码模型 Kimi K2.7-Code 首发测评：代码能力暴涨 21.8%，推理 token 反而少了 30%

2026-06-12，月之暗面发布并开源了最新代码模型 Kimi-K2.7-Code。同一天，小米开源了 MiMo Code，摩尔线程开源了 MusaCoder——三款国产开源代码模型同一天发布，这不是巧合。我用了一个下午深度体验 K2.7-Code，结论是：它是三款里最均衡的开源通用代码模型，也是目前国产开源模型里最值得日常切换的选择。

#功能测试

开源代码模型 Kimi K2.7-Code 首发测评：代码能力暴涨 21.8%，推理 token 反而少了 30%

#功能测试

开源人形机器人 RL 框架 Humanoid-Gym 论文解读：零样本 Sim2Real，从原理到本地部署

本文介绍了开源人形机器人强化学习框架Humanoid-Gym，该框架实现了零样本仿真到真实（Sim2Real）迁移，无需真实微调即可直接部署。通过域随机化、五分量奖励函数、高并行训练和Sim2Sim验证等关键技术，该框架在多种真实场景下实现了稳定的双足行走。文章详细说明了本地部署流程，包括环境配置、训练和评估步骤，并讨论了其适用场景与局限性。Humanoid-Gym作为完全开源的项目，已成为人形机

#开源 #机器人 #机器学习

到底了