
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
每次打开终端都要手动输入export确实非常繁琐。要让这些配置永久生效,你需要将export命令写入到你电脑终端(Shell)的默认配置文件中。这样,每次打开新的终端窗口时,系统都会自动为你加载这些变量。
RT-2 把动作极其细化了。它让每一次末端执行器的移动、每一次夹爪的收缩,都直接受到拥有数百亿参数的互联网常识模型的控制。这就解释了为什么 RT-2 能展现出惊人的泛化能力——因为它不是在机械地记忆动作,而是在用“大脑的常识”直接指挥“手指的微操”。
如果你正关注 VLA 方向,建议深入研究RT-2 的 Tokenization 方案以及OpenVLA 的开源实现。在数据层面,目前行业趋势正从“昂贵的专家示教”转向“低成本人体穿戴设备采集”+“仿真数据合成”。对于 AI 研究者来说,VLA 的核心难题在于如何建立有效的atπstgatπstg映射(其中sss为多模态状态,ggg为目标指令,aaa为动作),并解决长序列推理过程中的误差累积问题
模型不需要刻意去学习长序列中每一个绝对位置的含义,它只需要关注 Token 之间的相对远近,这让模型处理超长上下文(Long Context)的泛化能力得到了前所未有的提升。还是你的 Query 在第 1000 个位置,Key 在第 1005 个位置 (二维向量的点积就是**“第一行乘第一行” 加上 “第二行乘第二行”**。无论你的 Query 在第 10 个位置,Key 在第 15 个位置 (组
【代码】分享一波chatgpt的常用prompt。
分词器将你的草图编码为初始的 Tokenz1z_1z1。你输入的离散动作a1a_1a1(比如“向右”)通过查表转化为潜在动作嵌入a1a1。动力学模型接收z1z_1z1和a1a1,预测出下一帧的 Tokenz2z_2z2。最后,分词器的解码器将z2z_2z2解码为真实的图像像素显示在屏幕上。这套架构优雅地将无监督动作发现与高效的大规模视频生成结合在了一起。在这个物理维度上:由于的卷积操
传统的离策略蒸馏 (Off-Policy Distillation / SFT)做法:让强大的 Teacher 模型(如 DeepSeek-V4-Pro-Max)生成海量高质量回答,Student 模型直接拿着这些数据做有监督微调(Behavior Cloning)。致命缺陷 (Exposure Bias):Student 一直在被动模仿 Teacher 的轨迹。
传统的离策略蒸馏 (Off-Policy Distillation / SFT)做法:让强大的 Teacher 模型(如 DeepSeek-V4-Pro-Max)生成海量高质量回答,Student 模型直接拿着这些数据做有监督微调(Behavior Cloning)。致命缺陷 (Exposure Bias):Student 一直在被动模仿 Teacher 的轨迹。
如果这一层交替到了HCA (重度压缩注意力),整个流程的矩阵维度变换逻辑几乎完全一致,核心区别在于第一步的序列压缩率HCA 的压缩率m′128m' = 128m′128。1000 个 Token 会被极端压缩成1000128≈81000/128≈8个 KV 块。由于序列极短,HCA完全跳过第四步的稀疏选择,Query 直接与这 8 个全局浓缩块(外加 128 个局部滑动窗口块)进行全局注意力计算
每次打开终端都要手动输入export确实非常繁琐。要让这些配置永久生效,你需要将export命令写入到你电脑终端(Shell)的默认配置文件中。这样,每次打开新的终端窗口时,系统都会自动为你加载这些变量。







