logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Cosmos Policy:用视频生成模型的“肌肉记忆“教会机器人操控

之前的思路是:在底板旁边再搭一个新模块(动作扩散器、逆动力学模型),用螺丝拧上去,然后分两步训练——先微调视频部分,再训练动作部分。具体做法是:对每个动作提案,世界模型跑3次、价值函数跑5次(共15个价值预测),用"多数均值"(majority mean)聚合——先判断多数预测是成功还是失败,再在多数组内取均值。的 latent 帧序列,Cosmos Policy 在这些帧之间插入新的 laten

#人工智能
Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

Stop-gradient 的价值在于:它允许 backbone 接收来自离散 token 的梯度信号(这信号是干净的、不受干扰的),所以 backbone 既能学到机器人控制知识,又不会被 action expert 的随机初始化梯度污染。这不是偶发 bug,而是一个结构性的陷阱:当你把一个预训练好的视觉语言模型(VLM)硬塞进一个连续动作输出模块(flow matching / diffusi

#人工智能
Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

Stop-gradient 的价值在于:它允许 backbone 接收来自离散 token 的梯度信号(这信号是干净的、不受干扰的),所以 backbone 既能学到机器人控制知识,又不会被 action expert 的随机初始化梯度污染。这不是偶发 bug,而是一个结构性的陷阱:当你把一个预训练好的视觉语言模型(VLM)硬塞进一个连续动作输出模块(flow matching / diffusi

#人工智能
从LLaDA-TTS、SLM-TTA 看更务实的语音算法

这说明 AR 预训练的"习惯"被保留了,但双向 attention 给了模型一个"回头检查"的能力。你能做的只有:根据你对自己翻译的"把握程度",挑出你最有信心的那几个词,然后围绕这些词微调你的"听觉习惯"——只调一小会儿,换一个场景再重置。生成式语音语言模型(SLM)在干净数据上训练、在真实噪声里崩溃,而现有的自适应方法要么需要源数据(离线微调),要么只适配非生成式的ASR/分类模型——这篇论文

#语音识别#人工智能
CLAR:用CIF“对齐“去找回那些被语言模型吞掉的词

这就变成了一个"解码时自适应检索"的架构——不是一次性灌入top-K热词,而是LLM在需要的时候"点菜"。再大胆一点预测:未来1-2年,随着Speech LLM越来越强,前端检索模块会从"热词注入"演变成"结构化上下文注入"——不只是告诉LLM"这些词可能出现",而是告诉它"这个词在语音的第3.2秒到第3.5秒出现,置信度0.87"。有了这些格子,检索就变成了"滑窗匹配":候选热词有3个字,就在C

#语音识别#人工智能
到底了