Coolver candy 个人主页

@qq_39994418

Coolver candy

2023-06-20 03:48:15 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Cosmos Policy：用视频生成模型的“肌肉记忆“教会机器人操控

之前的思路是：在底板旁边再搭一个新模块（动作扩散器、逆动力学模型），用螺丝拧上去，然后分两步训练——先微调视频部分，再训练动作部分。具体做法是：对每个动作提案，世界模型跑3次、价值函数跑5次（共15个价值预测），用"多数均值"（majority mean）聚合——先判断多数预测是成功还是失败，再在多数组内取均值。的 latent 帧序列，Cosmos Policy 在这些帧之间插入新的 laten

#人工智能

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

Stop-gradient 的价值在于：它允许 backbone 接收来自离散 token 的梯度信号（这信号是干净的、不受干扰的），所以 backbone 既能学到机器人控制知识，又不会被 action expert 的随机初始化梯度污染。这不是偶发 bug，而是一个结构性的陷阱：当你把一个预训练好的视觉语言模型（VLM）硬塞进一个连续动作输出模块（flow matching / diffusi

#人工智能

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

#人工智能

从LLaDA-TTS、SLM-TTA 看更务实的语音算法

这说明 AR 预训练的"习惯"被保留了，但双向 attention 给了模型一个"回头检查"的能力。你能做的只有：根据你对自己翻译的"把握程度"，挑出你最有信心的那几个词，然后围绕这些词微调你的"听觉习惯"——只调一小会儿，换一个场景再重置。生成式语音语言模型（SLM）在干净数据上训练、在真实噪声里崩溃，而现有的自适应方法要么需要源数据（离线微调），要么只适配非生成式的ASR/分类模型——这篇论文

#语音识别 #人工智能

CLAR：用CIF“对齐“去找回那些被语言模型吞掉的词

这就变成了一个"解码时自适应检索"的架构——不是一次性灌入top-K热词，而是LLM在需要的时候"点菜"。再大胆一点预测：未来1-2年，随着Speech LLM越来越强，前端检索模块会从"热词注入"演变成"结构化上下文注入"——不只是告诉LLM"这些词可能出现"，而是告诉它"这个词在语音的第3.2秒到第3.5秒出现，置信度0.87"。有了这些格子，检索就变成了"滑窗匹配"：候选热词有3个字，就在C

#语音识别 #人工智能

到底了