
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
作者|涂远鹏 阿里巴巴达摩院实习生 引言 香港大学和阿里达摩院联合提出头号玩家(PlayerOne)模型,该方法可以根据用户提供的图像构建一个支持用户自由动作控制且场景一致的真实世界,通过摄像设备实时捕捉用户的动作序列,PlayerOne能够将这些动态信息无缝融入到构建的虚拟世界中,使用户能够以第一人称视角,在如同顶级AAA游戏般的高质量场景中,自由地进行探索与互动。 项目主页:https://

作者|冷思聪 阿里巴巴达摩院实习生 引言 阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了全新的评价基准--多模态的诅咒 (CMM),这是一个系统性地研究面向语言,视觉,和音频的多模态大模型 (LMMs) 幻觉问题的工作,对幻觉问题提供深入的分析和评估方法。 近年来,多模态大模型(LMMs)在人工智能的前沿领域取得了突破性进展,但仍然面临“幻觉”问题,即模型会生成与输入不符的信息。面对这一挑

作者|袁瑜谦 阿里巴巴达摩院实习生 引言 在厨房手忙脚乱时,你问AI助手:“我煮的菜熟了吗?”——它却连已经煮了几分钟都记不得。现有多模态大模型(MLLMs)在动态第一视角场景中近乎“盲人”:认不出已经清洗过的碗;预测不了即将烧焦的锅;记不住3秒前剪刀位置...... 浙大和达摩院重磅推出EOC-Bench——首个聚焦第一视角下「动态物体时空认知」的评测基准,用3277道灵魂拷问揭穿MLLMs

作者|陈浩邦 阿里巴巴达摩院算法工程师 摘要 在多模态表征学习领域,CLIP范式长期以来占据主导地位,但它正面临难以忽视的缩放瓶颈。例如,一些工作需要使用高达几万的batch size和十亿级别的图文对数据才能取得进展 。与此同时,多模态大语言模型(MLLM)在表征任务上展现出巨大的潜力,仅需轻量级的对比学习就能激活强大的表征能力,在困难任务上已大幅超越CLIP模型 。 这引出了一系列亟待解答

作者|岑嘉诚 阿里巴巴达摩院实习生 摘要 等变图神经网络(Equivariant Graph Neural Networks, GNNs)在多种应用中已展现出显著成功。为了实现完备性——即在等变函数空间上的通用逼近性质——网络必须能够有效捕捉不同节点之间复杂的多体相互作用。以往的方法通常通过加深网络结构、提高交互阶数或增加可导向特征的维度来实现,但往往伴随着巨大的计算开销,且缺乏多项式时间的解法

作者|岑俊 阿里巴巴达摩院算法工程师 导语 我们提出了RynnVLA-002,将具身视觉-语言-动作(Vision-Language-Action, VLA)模型与世界模型统一到了一个模型中。 世界模型利用动作和视觉输入来预测未来的图像状态,通过学习环境的底层物理规律来优化动作生成。 相反,VLA 模型从图像观测中生成后续动作,提升视觉理解能力,从而提升世界模型的图像生成能力。 RynnVLA-0

作者|袁超豪 阿里巴巴达摩院实习生 导语 在学习和模拟物理动力学(如分子运动、蛋白质折叠)时,图神经网络(GNN)已展现出巨大潜力。为了提升模型的泛化能力,一系列“等变GNN”(Equivariant GNNs)被开发出来,它们将平移、旋转等物理对称性作为归纳偏置(inductive bias)融入模型。然而,现有的方法普遍忽略了物理动力学的一个关键特性:非平稳性(non-stationarit

作者|袁杭杰 阿里巴巴达摩院算法工程师 引言 图像与视频重光照(Relighting)技术在计算机视觉与图形学中备受关注,尤其在电影、游戏及增强现实等领域应用广泛。当前,基于扩散模型的方法能够生成多样且可控的光照效果,但其优化过程通常依赖于语义空间,而语义上的相似性无法保证视觉空间中的物理合理性,导致生成结果常出现高光过曝、阴影错位、遮挡关系错误等不合理现象。 针对上述问题,我们提出了 UniL

作者:刘培源 导语 人工智能正在深刻改变医学。生成式模型、虚拟细胞、器官芯片与大规模真实世界数据,正在共同塑造一种由分子到群体的全新医学图景。其核心趋势,是将预测前移到疾病尚未发生或症状尚未显现之时,以实现风险量化和前瞻干预。本文围绕分子、细胞、组织-器官以及个体等层级,梳理AI驱动的代表性进展,揭示多模态数据、多尺度方法的关键挑战,并探讨走向临床应用的可能路径。 本文为文章作者的观点/研究数









