萨尔萨舞作为非语言具身语言——CoMPAS3D数据集与基准测试
想象一个人形机器人能够安全且富有创意地与人类共舞,适应舞伴的熟练程度,并以触觉信号作为主要沟通形式。虽然当今的AI系统擅长基于文本或语音的交互(依托大型语言模型),但人类沟通远不止于文本——它包括具身动作、时机把握和身体协调。对两个智能体之间的耦合交互进行建模是一项艰巨挑战:这种交互是连续的、双向反应的,并受个体差异影响。本文提出CoMPAS3D,即最大且最多样化的即兴萨尔萨舞动作捕捉数据集,旨在
萨尔萨舞作为非语言具身语言——CoMPAS3D数据集与基准测试
摘要
想象一个人形机器人能够安全且富有创意地与人类共舞,适应舞伴的熟练程度,并以触觉信号作为主要沟通形式。虽然当今的AI系统擅长基于文本或语音的交互(依托大型语言模型),但人类沟通远不止于文本——它包括具身动作、时机把握和身体协调。对两个智能体之间的耦合交互进行建模是一项艰巨挑战:这种交互是连续的、双向反应的,并受个体差异影响。本文提出CoMPAS3D,即最大且最多样化的即兴萨尔萨舞动作捕捉数据集,旨在为交互式、富有表现力的人形AI提供一个具有挑战性的测试平台。该数据集包含18位舞者(涵盖初级、中级和专业水平)表演的3小时领舞-跟舞萨尔萨舞。首次提供了精细的萨尔萨舞专家标注,覆盖超过2800个动作片段,包括动作类型、组合、执行错误和风格元素。我们将双人舞沟通与自然语言进行类比,在CoMPAS3D上评估两个合成人基准任务,这些任务平行于口语和对话处理中的关键问题:具有熟练水平的领舞或跟舞生成(说话者或听者合成),以及二重舞(对话)生成。为实现与人类共舞的长期目标,我们发布了数据集、标注和代码,以及一个能够执行所有基准任务的多任务SalsaAgent模型,同时提供额外基线以鼓励社会交互式具身AI及创意、富有表现力的人形运动生成研究。
主题分类
- 机器学习 (cs.LG)
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 计算机视觉与模式识别 (cs.CV)
提交信息
提交日期:2025年7月25日
版本:v1
DOI:https://doi.org/10.48550/arXiv.2507.19684
资源链接
相关工具与推荐
- Bibliographic Explorer:探索相关文献引用。
- Connected Papers:发现与该论文相关的其他研究。
- Litmaps:可视化文献关联。
- scite Smart Citations:查看智能引文分析。
- alphaXiv:访问附加数据和媒体资源。
- CatalyzeX:查找相关代码实现。
- Papers with Code:获取论文的代码资源。
实验与演示
- Replicate:复现论文实验结果。
- Hugging Face Spaces:体验模型演示。
- TXYZ.AI:探索更多AI应用示例。
致谢
感谢某机构、成员机构及所有贡献者的支持。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
更多推荐
所有评论(0)