
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
当前大多数大型语言模型 (LLM) 采用 Decoder-only 架构

FlashAttention旨在加速注意力计算并减少内存占用。FlashAttention利用底层硬件的内存层次知识,例如GPU的内存层次结构,来提高计算速度和减少内存访问开销。

本文提出了 DualVLN,一种用于视觉语言导航(VLN)的双系统基础模型,旨在解决现有端到端模型动作破碎、延迟高且难以避障的问题。DualVLN 模仿人类认知,由两个解耦系统组成:系统 2(慢系统)基于 7B 大模型进行全局规划,通过图像像素接地预测中期目标;系统 1(快系统)*是轻量级扩散策略,利用系统 2 的显式像素目标和隐式潜在查询,结合高频视觉输入生成平滑轨迹。这种设计既保留了 VLM

SayNav提出了一种基于大型语言模型(LLM)的导航规划方法,通过增量构建3D场景图作为LLM的输入,生成动态调整的高级导航计划。

Isaac-GR00T项目中的demo_data/robot_sim.PickNPlace数据集专为GR1人形机器人双臂抓取任务设计,包含5个episode共2,096帧数据。数据集采用LeRobot兼容格式,包含高(800×1280)和低(256×256)两种分辨率视频、44维状态/动作空间(按身体部位划分)及6种pick-and-place任务标注。数据预处理采用多阶段变换管道,包括视频裁剪、

Impromptu VLA:开放权重与数据驱动的视觉-语言-动作模型 本研究提出Impromptu VLA数据集,旨在解决自动驾驶视觉-语言-动作(VLA)模型在非结构化场景中的性能瓶颈。该数据集从8个开源数据集超过200万视频剪辑中精选80,000个片段,基于创新的四类非结构化场景分类法构建(道路边界模糊、临时交规变更、非常规障碍物、恶劣路况)。通过结合VLM自动标注与人工验证,数据集提供了丰富

GR00T(Generalist Robot 00 Technology)是由NVIDIA开发的通用机器人基础模型,支持自然语言理解和动作生成。本文档提供了完整的GR00T环境搭建指南,包含:1)系统要求与软件依赖准备;2)项目结构说明;3)自动化/手动环境配置方法;4)多模态数据加载测试;5)推理服务的客户端-服务器架构实现;6)模型微调策略与训练监控;7)性能评估指标与可视化分析。文档提供了全

近年来,人工智能 (AI) 领域经历了爆炸式发展,深度学习作为核心驱动力,在计算机视觉 (CV) 和自然语言处理 (NLP) 领域均取得了里程碑式的突破!🎉 为了进一步拓展 AI 的能力边界,研究人员开始积极探索如何融合视觉和语言两大模态,构建能够理解、生成并跨越图像和文本的模型。视觉语言模型 (Vision-Language Models, VLMs) 正是在这一背景下应运而生,它致力于弥合视

本文提出了一种名为Dynam3D的动态分层3D表示模型,专为视觉语言导航(VLN)任务设计。传统基于视频的大模型在真实3D导航中面临对3D几何理解不足、缺乏长期记忆和环境适应性差等挑战。Dynam3D通过将2D视觉特征投影到3D空间,构建了包含“补丁-实例-区域”三个层级的动态3D表示。该模型能够在线编码和定位3D物体实例,并根据环境变化动态更新其记忆,从而实现了更强的空间几何理解和长期记忆能力。

claude code sub agent








