
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
核心贡献公开了 GR00T-N1-2B 模型权重、训练数据、仿真环境(GitHub+HuggingFace),降低通用机器人研究门槛;技术突破:双系统 VLA 架构解决 “推理慢 + 动作笨” 的矛盾,数据金字塔解决 “数据稀缺”,为后续通用机器人模型提供范式;落地验证:在真实 GR-1 人形机器人上实现 “语言指令控制双手操作”,证明基础模型在人形机器人上的可行性。局限性任务范围:目前仅支持 “

这篇论文表明,基于 GPT 系列的 LLM,在足够大的批处理的无监督数据上进行对比预训练,可以获得高质量的文本和代码的 embedding 表示,并可以应用于其他的下游任务中得到不错的表现。

RAFT:适用于 domain specific RAG 的 LLM,结合了 SFT 和 RAG 的思想,实现了特定领域进行 QA 的好的效果。

总的来说,这篇论文提出了一个很新颖的思路:prompt retriever,从而提高 LLM 的 zero-shot 的能力。同时还研究了 prompt retriever 从训练的任务类型推广到其他未见过的任务类型,以及从小的 LLM 推广到更大规模的。

本文基于 Codex 的 LLM 来探索了 CoT-style 的 prompting 效果,增强了 LLM 对 Text2SQL 解析的推理能力。论文发现了 CoT 在 Text2SQL 任务中会出现错误传播问题,本文提出的 QDecomp 方法是缓解 LLM 多步骤推理中错误传播问题的尝试之一,之后值得对这个问题进行更深一步的探讨。

MCS-SQL 利用 LLM 的输出对 ICL exemplars 敏感的特点,通过变换 exemplars 的选择和呈现顺序,构建出多个 prompts 来得到多个候选 SQL,然后再过滤后引导 LLM 从中选出最精确的 SQL。

框架创新:提出 “单帧预训练 + 多帧后训练” 的两阶段范式,首次实现 “高效多帧 VLA 建模”,兼顾性能与速度;技术: 特征块+跨帧解码器+多帧正则化的三合一设计基准创新:提出 SimplerEnv-OR,填补 VLA 模型鲁棒性评估的空白,支持 24 种时空干扰的定量测试;可兼容现有VLA模型(OpenVLA等),即插即用CronusVLA 的核心突破在于“用特征级多帧建模替代图像级多帧输入

轻量化:0.77B 参数,大幅降低训练 / 部署成本;免预训练:无需大规模机器人数据,数据收集成本骤降;强泛化:两阶段训练保护语义表征,面对干扰(如背景变化、目标移位)仍稳定;高实用:实时推理 + 低显存,适配消费级 GPU 和真实机器人场景。为推动未来研究,作者团队公开了代码、训练数据和模型权重,以鼓励轻量级高性能 VLA 模型的进一步研究与实际开发。

模型将被在不同的复杂 SQL、复杂数据库、复杂 domains 上被测试,要求模型能够对 question 理解语义,并对新的数据库有泛化能力。任务不评估模型生成 value 的能力,因为这个 benchmark 侧重评估预测出正确的 SQL 结构和 columns,数据集中也被排除了需要常识推理和数学计算的 querys。论文工作还对数据库的 table names 和 column names

论文精读:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models使用思维链提示来增强语言模型的表现








