logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

阿里Qwen-VLA:统一视觉-语言-动作建模,迈向通用具身智能

摘要: Qwen Team提出统一视觉-语言-动作基础模型Qwen-VLA,突破传统具身智能研究中任务、环境与机器人本体割裂的局限。该模型采用"认知主干+运动专家"双模块架构,通过四阶段渐进训练策略(文本到动作预训练、持续预训练、监督微调、强化学习),在涵盖操作、导航、轨迹预测等异质任务的大规模数据集上实现统一建模。核心创新包括:1)将不同具身任务统一为条件预测框架;2)本体感知提示条件机制实现跨

文章图片
#人工智能#算法#机器人
WorldOlympiad:视频世界模型的“铁人三项“评测新标杆

文章摘要: 浙江大学等机构联合推出WorldOlympiad评测基准,系统评估视频生成模型作为"世界模型"的核心能力。该基准从物理真实性、几何一致性和交互保真度三个维度出发,在游戏、机器人操作与真实世界三大场景中测试了8种主流长视频生成模型。研究发现:1)大模型(如LingBot-World)在物理与交互维度表现优异,但几何一致性仍是行业短板;2)专用优化(如Cosmos-Predict-2.5)

文章图片
#人工智能#深度学习
中科院DexJoCo:面向灵巧操作的基准测试与工具集

本文介绍了DexJoCo基准测试与工具集,这是一个面向任务导向灵巧操作的标准化评估框架,旨在推动机器人灵巧手操作能力的研究。DexJoCo包含工具使用、双手协调、长时程执行与推理四类功能导向任务,强调精细手指协调与复杂物体交互。研究团队开发了低成本遥操作数据采集系统,采集了1100条人类演示轨迹,并支持多模型评估。实验结果表明,当前策略在视觉随机化条件下表现仍有提升空间,且不同架构策略在不同任务上

文章图片
#人工智能
字节Lance:轻量级原生统一多模态模型,以多任务协同实现理解与生成的新范式

字节跳动提出轻量级多模态统一模型Lance,仅3B激活参数即实现图像/视频理解、生成与编辑全任务覆盖。该模型采用双专家混合架构和模态感知位置编码技术,通过四阶段渐进训练在128张GPU上完成优化。实验显示,Lance在图像生成(GenEval)、视频生成(VBench)等基准测试中性能领先开源模型,部分指标媲美商用大模型。其创新设计有效解决了多模态任务中理解与生成的表征冲突问题,为轻量级统一多模态

文章图片
#人工智能#计算机视觉#深度学习
超越VLA与世界模型:构建下一代物理智能系统的四大支柱

机器人技术正经历从单一任务编程向通用物理智能的范式转变,但面临数据规模与质量的关键瓶颈。最新研究指出,单纯扩大模型规模与收集机器人演示数据无法突破核心限制,提出构建下一代系统的四大支柱: 物理数据引擎:通过具身自动标注技术,从异构物理经验中提取结构化学习信号,将人类行为转化为机器人可理解的物理标签体系 任务保持重定向:建立跨具身形态的技能迁移机制,弥合人类演示与机器人执行之间的"具身鸿沟" 物理基

文章图片
#人工智能
WorldArena 2.0:迈向多模态、交互式与跨平台的世界模型评测新范式

WorldArena 2.0评测基准突破具身智能世界模型的三重边界 清华联合多所顶尖高校提出的WorldArena 2.0评测框架,针对当前世界模型评估的三大局限展开系统性创新: 模态扩展:构建视触觉融合评测体系,通过触觉VAE模块和双流预测架构,将纯视觉评估扩展到接触丰富的操作任务(如HDMI插入、瓶子抓取) 功能升级:从静态离线评估转向交互式强化学习环境,验证世界模型支持策略持续优化的能力 平

文章图片
#人工智能
WorldArena 2.0:迈向多模态、交互式与跨平台的世界模型评测新范式

WorldArena 2.0评测基准突破具身智能世界模型的三重边界 清华联合多所顶尖高校提出的WorldArena 2.0评测框架,针对当前世界模型评估的三大局限展开系统性创新: 模态扩展:构建视触觉融合评测体系,通过触觉VAE模块和双流预测架构,将纯视觉评估扩展到接触丰富的操作任务(如HDMI插入、瓶子抓取) 功能升级:从静态离线评估转向交互式强化学习环境,验证世界模型支持策略持续优化的能力 平

文章图片
#人工智能
WorldArena 2.0:迈向多模态、交互式与跨平台的世界模型评测新范式

WorldArena 2.0评测基准突破具身智能世界模型的三重边界 清华联合多所顶尖高校提出的WorldArena 2.0评测框架,针对当前世界模型评估的三大局限展开系统性创新: 模态扩展:构建视触觉融合评测体系,通过触觉VAE模块和双流预测架构,将纯视觉评估扩展到接触丰富的操作任务(如HDMI插入、瓶子抓取) 功能升级:从静态离线评估转向交互式强化学习环境,验证世界模型支持策略持续优化的能力 平

文章图片
#人工智能
CVPR26最佳学生论文O-Voxel:面向高质量3D生成的原生紧凑结构化潜空间

摘要: 本文提出一种创新的3D生成建模方法——O-Voxel(Omni-Voxel),通过稀疏体素结构联合编码几何与材质信息,支持任意拓扑的鲁棒建模。核心贡献包括:1)灵活对偶网格设计,实现高效网格-体素双向转换;2)体积表面属性建模,兼容PBR材质;3)稀疏压缩VAE(SC-VAE)实现16倍空间压缩率,结合大规模流匹配模型,在秒级推理下生成高保真3D资产。实验表明,该方法在形状重建(MD、CD

文章图片
#3d
JoyAI-Echo:让五分钟叙事视频拥有可延续的角色记忆

摘要: 论文《JoyAI-Echo: Pushing the Frontier of Long Audio-Visual Generation》提出了一套系统工程框架,解决长时长、可交互、高清音视频生成的挑战。其核心创新包括: 跨模态音视频记忆库:通过结构化槽位绑定角色外观与声纹,支持多镜头叙事一致性; 记忆式后训练管线:结合SFT、RLHF和蒸馏技术,优化生成质量、音画同步与推理效率; Dire

文章图片
#音视频
    共 49 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择