我自己的原文哦~                  https://blog.51cto.com/u_16839134/11707804

#MoMa

混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合

混合专家,也得术业有专攻。

对于目前的混合模态基础模型,常用的架构设计是融合特定模态的编码器或解码器,但这种方法存在局限:无法整合不同模态的信息,也难以输出包含多种模态的内容。

为了克服这一局限,Meta FAIR 的 Chameleon 团队在近期的论文《Chameleon: Mixed-modal early-fusion foundation models》中提出了一种新的单一 Transformer 架构,它可以根据下一个 token 的预测目标,对由离散图像和文本 token 组成的混合模态序列进行建模,从而在不同模态之间进行无缝推理和生成。

在约 10 万亿混合模态 token 上完成预训练之后,Chameleon 表现出了适应广泛的视觉和语言能力,能很好地处理多种不同的下游任务。Chameleon 在生成混合模态长回答任务的表现尤其亮眼,它甚至打败了 Gemini 1.0 Pro 和 GPT-4V 等商用模型。然而对于 Chameleon 这样各种模态会在模型训练的早期混合起来的模型,想要拓展它的能力,需要投入大量算力。

基于以上问题,Meta FAIR 的团队对路由式稀疏架构(routed sparse architecture)进行了一番研究探索,提出了 MoMa:模态感知型专家混合架构。

  • 论文标题:MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
  • 论文地址:https://arxiv.org/pdf/2407.21770

之前已有研究表明,这类架构可以有效地扩展单模态的基础模型的能力,也可以增强多模态对比学习模型的性能。但是,将其用于较早将各种模态融合的模型训练还是一个机遇与挑战并存的课题,还少有人研究。

该团队的研究基于这一洞见:不同模态具有固有的异构性 —— 文本和图像 token 具有不同的信息密度和冗余模式。

在将这些 token 整合成统一的融合架构的同时,该团队也提出通过整合针对具体模态的模块来进一步优化该框架。该团队将这一概念称为模态感知型稀疏性(modality-aware sparsity),简称 MaS;其能让模型更好地捕获每个模态的特征,同时还能通过部分参数共享和注意力机制维持强大的跨模态整合性能。

之前的 VLMo、BEiT-3 和 VL-MoE 等研究已经采用了混合模态专家(MoME/mixture-of-modality-experts)方法来训练视觉 - 语言编码器和掩码式语言建模,来自 FAIR 的研究团队更进一步将 MoE 的可用范围又推进了一步。

模型架构

早期融合

本文提出的新模型基于 Chameleon 的早期融合架构,其做法是在一个统一 Transformer 中,将图像和文本表示成一系列离散 token。Chameleon 的核心是一个基于 Transformer 的模型,其会在图像和文本 token 的组合序列上应用自注意力机制。这能让该模型捕获模态内和模态间的复杂关联。该模型的训练使用的目标是下一 token 预测目标,以自回归方式生成文本和图像 token。

在 Chameleon 中,图像的 token 化方案采用了一个学习型图像分词器,它将基于大小为 8192 的 codebook 将 512 × 512 的图像编码成 1024 个离散 token。对于文本的分词将使用一个词表大小为 65,536 的 BPE 分词器,其中包含图像 token。这种统一的分词方法可以让模型无缝处理图像和文本 token 交织错杂的任意序列。

借助这种方法,新模型继承了表征统一、灵活性好、可扩展性高、支持端到端学习这些优点。

在此基础上(图 1a),为了进一步提升早融合模型的效率和性能,该团队还引入了模态感知型稀疏性技术。

图片

宽度扩展:模态感知型混合专家

该团队提出了一种宽度扩展方法:将模态感知型模块稀疏性集成到前向模块中,从而扩展标准混合专家(MoE)架构。

该方法基于这一洞见:不同模态的 token 有各自不同的特征和信息密度。

通过为每个模态构建不同的专家分组,可让模型开发出专门的处理路径,同时维持跨模态的信息整合能力。

图 1b 展示了这种模态感知型专家混合(MoMa)的关键组件。简单来说,先是对各个特定模态的专家进行分组,然后实现分层路由(分为模态感知型路由和模态内路由),最后选择专家。详细过程参见原论文。

总体来说,对于一个输入 token x,MoMa 模块的形式化定义为:

图片

在 MoMa 计算之后,该团队又进一步使用了残差连接和 Swin Transformer 归一化。

Mixture-of-Depths(MoD)

之前也有研究者探索将稀疏性引入深度维度,他们的做法要么是随机丢弃某些层,要么就是使用可学习的路由器。

具体而言,如下图所示,该团队的做法是在每个 MoD 层中,在混合专家 (MoE)路由之前都集成 MoD,从而确保在模态分离之前,整批数据都能应用 MoD。

图片

推理

在推理阶段,我们不能直接使用 MoE 的专家选择路由或 MoD 的层选择路由,因为在一批数据中进行 top-k(选择前 k 个)选择会破坏因果关系。

为了保证推理的因果关系,受上述 MoD 论文的启发,研究团队引入了辅助路由器(auxiliary router),其作用是仅基于 token 的隐藏表征预测该 token 被某个专家或层选中的可能性。

升级改造(Upcycling)

在优化表征空间和路由机制方面,对于一个从头开始训练 MoE 架构,存在一个独特的难题。该团队发现:MoE 路由器负责为每个专家划分表征空间。但是,在模型训练的早期阶段,这个表征空间并非最优,这就会导致训练得到的路由函数也是次优的。

为了克服这一局限,他们基于 Komatsuzaki 等人的论文《Sparse upcycling: Training mixture-of-experts from dense checkpoints》提出了一种升级改造方法。

具体来说,首先训练一个每个模态都有一个 FFN 专家的架构。经过一些预先设定的步数之后,再对该模型进行升级改造,具体做法是:将每个特定模态的 FFN 转换成一个专家选择式 MoE 模块,并将每个专家初始化为第一阶段训练的专家。这里会在保留前一阶段的数据加载器状态的同时重置学习率调度器,以确保第二阶段的训练能使用已刷新的数据。

为了促进专家更加专业,该团队还使用了 Gumbel 噪声来增强 MoE 路由函数,从而使得新的路由器能以可微分的方式对专家进行采样。

这种升级改造方法加上 Gumbel-Sigmoid 技术,可克服学习到的路由器的局限性,从而提升新提出的模态感知型稀疏架构的性能。

效率优化

为促进 MoMa 的分布式训练,该团队采用了完全分片式数据并行(FSDP/Fully Sharded Data Parallel)。但是,相比于常规 MoE,该方法存在一些特有的效率难题,包括负载平衡问题和专家执行的效率问题。

对于负载平衡问题,该团队开发了一种平衡的数据混合方法,可让每台 GPU 上的文本 - 图像数据比例与专家比例保持一致。

对于专家执行的效率问题,该团队探索了一些策略,可帮助提升不同模态的专家的执行效率:

  • 将各个模态的专家限制为同构的专家,并禁止将文本 token 路由到图像专家,反之亦然;
  • 使用模块稀疏性(block sparsity)来提升执行效率;
  • 当模态的数量有限时,按顺序运行不同模态的专家。

由于实验中每台 GPU 处理的 token 都足够多,因此即使使用多个分批次矩阵乘法,硬件利用率也不算大问题。因此,该团队认为对于当前规模的实验环境而言,按顺序执行的方法是比较好的选择。

其它优化

为了进一步提升吞吐量,该团队还采用了其它一些优化技术。

其中包括降低梯度通信量、自动化的 GPU 核融合等一般优化操作,研究团队还通过 torch.compile 实现了图优化。

此外,他们还针对 MoMa 开发了一些优化技术,包括跨不同层复用模态 token 索引,以最高效地同步 CPU 和 GPU 之间的设备。

实验

设置

实验中使用的预训练数据集和预处理过程与 Chameleon 一样。为了评估扩展性能,他们训练模型使用的 token 数量超过 1 万亿。

图片

表 1 给出了密集和稀疏模型的详细配置情况。

不同计算层级的扩展性能

该团队分析了不同模型在不同计算层级上的扩展性能,这些计算层级(FLOPs)相当于三种大小的密集模型:90M、435M 和 1.4B。

实验结果表明,一个稀疏模型仅使用总 FLOPs 的 1/η 就能比肩同等 FLOPs 的密集模型的预训练损失(η 表示预训练加速因子)。

模态解绑

引入特定模态的专家分组可提高不同规模模型的预训练效率,这对图像模态尤其有益。如图 3 所示,使用 1 个图像专家和 1 个文本专家的 moe_1t1i 配置显著优于相应的密集模型。

图片

扩展每个模态分组的专家数量还能进一步提升模型性能。

混合深度与专家

该团队观察到,当采用 MoE 和 MoD 以及它们的组合形式时,训练损失的收敛速度会得到提升。如图 4 所示,向 moe_1t1i 架构添加 MoD(mod_moe_1t1i)可大幅提升不同模型大小的模型性能。

图片

此外,在不同的模型大小和模态上,mod_moe_1t1i 能媲美甚至超过 moe_4t4i,这表明在深度维度上引入稀疏性也能有效提升训练效率。

另一方面,还能看到堆叠 MoD 和 MoE 的收益会逐步下降。

扩展专家的数量

为了研究扩展专家数量的影响,该团队进行了进一步的消融实验。他们探索了两种场景:为每种模态分配同等数量的专家(平衡)以及为每种模态分配不同数量的专家(不平衡)。结果见图 5。

图片

对于平衡的设置,从图 5a 可以看到,随着专家数量提升,训练损失会明显下降。但文本和图像损失表现出了不同的扩展模式。这表明每种模态的固有特性会导致出现不同的稀疏建模行为。

对于不平衡的设置,图 5b 比较了同等专家总数(8)的三种不同配置。可以看到,一个模态的专家越多,模型在该模态上的表现通常就越好。

升级改造

该团队自然也验证了前述的升级改造的效果。图 6 比较了不同模型变体的训练曲线。

图片

结果表明,升级改造确实能进一步改善模型训练:当第一个阶段有 10k 步时,升级改造能带来 1.2 倍的 FLOPs 收益;而当这个步数为 20k 时,也有 1.16 倍的 FLOPs 收益。

此外,还能观察到,随着训练推进,经过升级改造的模型与从头开始训练的模型之间的性能差距会不断增大。

吞吐量分析

稀疏模型通常不能立即带来性能增益,因为稀疏模型会增加动态性和相关的数据平衡问题。为了量化新提出的方法对训练效率的影响,该团队通常控制变量实验比较了不同架构的训练吞吐量。结果见表 2。

图片

可以看到,相比于密集模型,基于模态的稀疏性能实现更好的质量 - 吞吐量权衡,并且能随专家数量增长展现出合理的可扩展性。另一方面,尽管 MoD 变体取得了最好的绝对损失,但由于额外的动态性和不平衡性,它们的计算成本往往也更高。

推理时间性能

该团队也评估了模型在留存的语言建模数据和下游任务上的表现。结果见表 3 和 4。

图片

如表 3 所示,通过使用多个图像专家,1.4B MoMa 1t1i 模型在大多数指标上都优于相应的密集模型,只有在 COCO 和 Flickr 上的图像到文本条件困惑度指标例外。进一步扩展专家数量也能提升性能,其中 1.4B MoE 8x 在图像到文本性能上达到了最佳。

此外,如表 4 所示,1.4B MoE 8x 这个模型还非常擅长文本到文本任务。1.4B MoMa 4t4i 在所有条件图像困惑度指标上表现最佳,而其在大多数基准上的文本困惑度也非常接近 1.4B MoE 8x。

总体而言,在混合文本和图像两种模态的数据上,1.4B MoMa 4t4i 模型的建模结果最好。 开发板商城 天皓智联 TB上有视觉设备哦 支持AI相关~ 大模型相关也可用~

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#Yoshua Bengio

刚刚成为全球首个百万引用科学家!

刚刚,计算机科学家 Yoshua Bengio 创造了新的历史,成为 Google Scholar 上首个引用量超过 100 万的人!

图片

打个直观的比方,如果我们将每一篇引用论文打印成册(假设平均厚度为 1 毫米),然后将它们垂直堆叠起来,这座由知识构成的纸塔将高达 1000 米。这是什么概念?它将轻松超越目前的世界最高建筑,即 828 米的迪拜哈利法塔。

当然,伟大的头脑总是成群结队地出现。在这场 AI 的知识盛宴中,Bengio 并非独行者。他的老友,同为深度学习「三巨头」的 Geoffrey Hinton 和 Yann LeCun,其引用量也分别达到了惊人的 97 万和 43 万级别。

图片

作为登顶百万引用科学家第一人。(需要说明,Bengio 并非首个收获百万引用的人。法国哲学家和思想史学家米歇尔·福柯(Michel Foucault)的 Google Scholar 引用量已经达到了惊人的 139 万。)Yoshua Bengio 的引用增长曲线,几乎与 AI 技术从边缘走向世界中心的爆发曲线完美重合。

图片

因此,这 100 万次引用,不仅仅是对一位科学家的认可;它更像一座纪念碑,铭刻着 AI 从理论走向现实,并最终改变世界的波澜壮阔的二十年。

深度学习的拓荒者与 AI 的「良心」

在人工智能(AI)的璀璨星河中,很少有名字像 Yoshua Bengio 那样,既代表着开创性的技术突破,又承载着深沉的社会责任感。他与 Geoffrey Hinton 和 Yann LeCun 被世人并称为「深度学习三巨头」,共同摘取了计算机科学领域的最高荣誉:图灵奖。

然而,这位温文尔雅、说话轻声细语的科学家,在将世界带入 AI 新纪元的同时,也日益成为该领域最深刻的「吹哨人」之一。他的人生故事,是一段在「AI 寒冬」中坚守信念的学术史,也是一场在技术浪潮之巅,试图为人类未来掌舵的思想求索。

从科幻少年到学术新星

1964 年 3 月 5 日,Yoshua Bengio 出生于法国巴黎一个从摩洛哥移民而来的犹太家庭。他的成长环境充满了艺术与智识的熏陶。父亲 Carlo Bengio 是一位药剂师,同时也是一位剧作家,在蒙特利尔经营着一个用犹太 - 阿拉伯语表演的塞法迪犹太戏剧团;母亲 Célia Moreno 曾在摩洛哥的戏剧界崭露头角,后来在蒙特利尔共同创办了一个多媒体剧团。这种跨文化的艺术背景,或许早早就在 Bengio 心中埋下了自由思考与创新的种子。

当 Bengio 12 岁时,全家搬到了加拿大蒙特利尔。

彼时的他,已沉浸在阿西莫夫、雷・布拉德伯里和亚瑟・克拉克构建的科幻世界中。斯坦利・库布里克的电影《2001:太空漫游》中人与机器的关系,特别是「一位老师日复一日地教导一台机器认识世界」的情节,深深地吸引了他。「科幻小说是梦想未来的方式,」Bengio 后来回忆道。

从 11 岁起,他就开始用计算器编程,对数学和计算机科学的兴趣日益浓厚。他坦言自己记性不好,不擅长死记硬背,而这恰恰让他被只需推理的数学和计算机科学所吸引。

在家人的鼓励下,Yoshua Bengio 的才华得以自由发展。他和仅小一岁的弟弟 Samy Bengio(后来也成为 Google Brain 的杰出 AI 科学家,Torch 的三位作者之一,现为苹果公司 AI 与机器学习研究高级主管)几乎形影不离,共同研究、交流思想。

Bengio 兄弟:左为 Samy Bengio,右为 Yoshua Bengio

1986 年,Yoshua Bengio 顺利进入麦吉尔大学,并接连获得了电气工程学士、计算机科学硕士及博士学位,为他日后的学术生涯奠定了坚实的基础。

1991 年博士毕业后,他先后在麻省理工学院(MIT)和著名的贝尔实验室(AT&T Bell Labs)进行博士后研究,师从 Michael I. Jordan 等领域巨擘。1993 年,他回到蒙特利尔,正式加入蒙特利尔大学,开启了他影响深远的学术生涯。

在「AI 寒冬」中坚守

上世纪 80 年代末至 90 年代,当 Bengio 投身于神经网络研究时,这个领域正经历着漫长的「AI 寒冬」。

当时,主流学界对神经网络的实用性持怀疑态度,认为它更像一种「炼金术」,缺乏实际应用前景,研究资金也十分匮乏。许多研究者纷纷转向其他看似更有前途的方向。

然而,Bengio 与他的同行者 Hinton 和 LeCun 却选择坚守。他被 Hinton 基于神经网络构建「智能计算机」的构想深深吸引。Bengio 说:「这不仅仅是数学或计算机科学。这是关于理解人类智能,从而构建智能机器。」这种宏大的愿景支撑着他在逆境中前行。他后来反思道:「我想我可能对特定时期人们关心什么并不敏感,我只相信我正在做的事情。」

图片

正是这份「不敏感」和执着,让 Bengio 在接下来的二十年里,取得了一系列奠基性的突破:

  • 反向传播与循环神经网络 (RNN):在 90 年代,他深入研究了反向传播算法,并在 1997 年与合作者引入了长短期记忆网络(LSTM),极大地提升了神经网络处理序列数据的能力,为后来的自然语言处理革命奠定了基础。
  • 神经概率语言模型:2003 年,他发表了里程碑式的论文《A Neural Probabilistic Language Model》。该模型首次引入了「词嵌入」(word embeddings)的概念,将词语表示为连续的向量,有效克服了自然语言处理中的「维度灾难」问题,是现代语言模型(如 BERT、GPT)的直接前身。
  • 深度学习架构的训练:2009 年的论文《Learning Deep Architectures for AI》系统性地阐述了深度学习的理论、挑战与解决方案,尤其是无监督预训练等技术,为训练更深、更复杂的网络铺平了道路,极大地推动了深度学习从理论走向现实。
  • 生成对抗网络 (GAN):2014 年,他与 Ian Goodfellow 等人共同提出的生成对抗网络,通过两个神经网络的博弈来生成以假乱真的新数据,开创了生成式 AI 的一个重要分支,在图像生成、艺术创作等领域产生了深远影响。

这些在当时看来略显边缘的研究,最终汇聚成一股强大的洪流,彻底改变了 AI 的面貌,也让 Bengio 从一位默默无闻的探索者,成长为全球顶尖的学术巨星。

扎根蒙特利尔,打造 AI 新高地

尽管声名鹊起,Bengio 却刻意与硅谷的明星文化保持距离。当 Hinton 和 LeCun 分别加入谷歌和 Facebook 时,他选择留在蒙特利尔,专注于更为纯粹的学术生活。「我不喜欢将科学个人化,把某些科学家变成明星,」这位自称内向的人说道。

他将精力倾注于创办蒙特利尔学习算法研究所(MILA)。他的愿景是创建一个连接学术界与产业界的开放合作中心,吸引全球顶尖人才。

在他的领导下,MILA 凭借其在深度学习领域的卓越研究,迅速成长为全球领先的 AI 研究机构之一,也成功地将蒙特利尔打造成了与硅谷、伦敦并驾齐驱的全球 AI 中枢。

在同事眼中,Bengio 是一位打破常规、崇尚自由的思想者。他不喜欢等级制度,甚至会将自己项目的收益分享给年轻的同事。他的理念正如 1968 年巴黎学生运动的口号:「禁止禁止」(It is forbidden to forbid)。这种精神也体现在他联合创办的 AI 企业孵化器 Element AI 上,致力于将前沿研究转化为实际的商业应用。

成为 AI 时代的「良心」

随着他亲手推动的 AI 技术以前所未有的速度渗透到社会生活的方方面面,Bengio 的内心开始经历一场深刻的转变。他越来越担心,这些强大的工具若落入「坏人」之手,可能会导向一个黑暗的未来,甚至创造出现实的「杀手机器人」。

2023 年 5 月,他在接受 BBC 采访时坦言,对自己毕生的工作感到迷失(lost),因为他看到 AI 技术被滥用的风险与日俱增。这种忧虑,使他从一个纯粹的科学家,逐渐转变为一个积极的社会活动家和伦理倡导者。

他将理想寄托于《星际迷航》而非《终结者》的未来愿景。「在《星际迷航》中,人类通过民主治理,每个人都享有良好的医疗、教育和食物,除了对抗外星人,没有战争。」Bengio 说,「我也在努力将科学与如何改善社会结合起来。」

他的担忧并非空谈,而是付诸了一系列切实的行动:

  • 推动伦理准则:他帮助起草了《蒙特利尔 AI 负责任发展宣言》,倡导透明、公平和可解释的 AI。
  • 呼吁国际监管:他公开支持签订国际条约,禁止「致命性自主武器」(杀手机器人)的研发与使用。
  • 签署公开信:在 GPT-4 问世后,他与众多专家共同签署了生命未来研究所的公开信,呼吁暂停训练比 GPT-4 更强大的 AI 系统至少 6 个月,以便社会有时间评估风险、建立护栏。
  • 领导国际安全报告:他受英国首相委托,领导撰写关于先进 AI 安全性的国际科学报告,评估其可能带来的网络攻击和「失控」风险。
  • 创办非营利组织:他发起了名为 LawZero 的非营利组织,旨在构建能够检测和阻止自主智能体有害行为的「诚实」 AI 系统。

,时长01:21

Bengio 介绍 LawZero

尽管如此,Bengio 并非一个悲观的技术恐惧者。他认为,将机器拟人化,想象它们会因为拥有情感和自尊而背叛人类的「终结者情景是荒谬的」。他强调,真正的风险不在于机器的「觉醒」,而在于人类对强大工具的滥用和控制不当。他说:「你不能因为代数被用来计算导弹弹道就去责怪代数的发明者,但我们需要明智地行动。」

Bengio 的高引论文

根据 Google Scholar,Yoshua Bengio 超过 1 万引用的论文或著作达 19 之数,超过 1000 引用的则达到了 96 篇,其中更是有两篇的引用量超过了 10 万 —— 两者加起来超过了其当前百万引用量的五分之一。

其中最高的便是 Yoshua Bengio 与 Ian Goodfellow 等人共同提出生成对抗网络的同名论文《Generative Adversarial Nets》。

论文地址:https://arxiv.org/abs/1406.2661

这篇论文提出了著名的生成对抗网络(GAN),其核心的对抗性训练技术以及由一个生成器 (Generator) 和一个判别器 (Discriminator) 构成的独特架构,展示了其在生成高质量数据样本领域的巨大潜力。

具体来说,该框架通过让两个神经网络(生成模型 G 和判别模型 D)相互博弈来进行训练 。

G 的任务是学习真实数据的分布,以便生成足以以假乱真的样本(如同伪造者),而 D 的任务则是尽力区分真实数据与 G 生成的伪造数据(如同警察) 。这种对抗过程形成了一个「极小极大两玩家博弈」 (minimax two-player game) ,整个系统可直接使用反向传播算法进行端到端训练 ,从而成功规避了许多传统生成模型中对马尔可夫链的依赖或复杂的概率计算等难题。本文重点介绍了这一由生成器和判别器组成的对抗性网络架构。该文通过在 MNIST、CIFAR-10 等数据集上的实验证明了此框架的可行性与潜力 ,并展望了其在条件生成模型、半监督学习等方向上的广阔应用前景。

紧随其后的便是 Bengio 与 Geoffrey Hinton 和 Yann LeCun 合著的《Deep learning》。

论文地址:https://www.nature.com/articles/nature14539

这是一篇重要的奠基性论文,主要阐述了深度学习的基本概念、核心技术、主要架构及其在多个领域的巨大影响。

具体来说,深度学习可通过构建多层计算模型,让机器能够自动从大规模数据中学习到具有多个抽象层次的特征表示。该方法利用反向传播算法 (backpropagation) 来调整模型内部参数,成功克服了传统机器学习依赖人工设计特征的局限性。本文重点介绍了两种关键架构:在图像处理领域取得革命性突破的卷积神经网络(CNN)以及在处理文本和语音等序列数据上表现出色的循环神经网络 (RNN)。该文总结道,深度学习已在诸多领域(如视觉识别、语音识别等)取得巨大成功,并展望其未来将在无监督学习及与强化学习结合等方向上取得更大进展。

有意思的是,Bengio 引用量第三的也是《Deep Learning》,不过这不是一篇论文,而是他与 Ian Goodfellow 和 Aaron Courville 合著的经典教材 —— 其已经获得超过 8.6 万次引用!

下图展示了其 19 篇超过万引的论文或著作的数据详情。

图片

Bengio 仍在继续向前

值得注意的是,现年 61 岁的 Yoshua Bengio 依然笔耕不辍,依然继续在以第一作者的身份发表论文和研究报告。

比如今年 9 月他与学生 Eric Elmoznino 在顶尖期刊 Science 发表了《Illusions of AI consciousness》一文,探讨了两大问题:

  • 随着 AI 的不断改进,科学界和公众对 AI 具有意识的信念将如何演变?
  • 如果我们开始把未来的 AI 当作有意识的生命体看待,将会面临哪些风险?比如 AI 不服从人类命令,那么关闭 AI 有没有法律约束,毕竟那时的 AI 被看做一个生命体。

今年十月,他又继续以一作身份发布了一份 AI 安全报告《International AI Safety Report 2025: First Key Update: Capabilities and Risk Implications》,基于大量新证据对 AI 安全进行了重新评估。

Bengio 为该报告撰写的前言

而有 Yoshua Bengio 署名的新论文更是接连不断地在涌现。在这些层出不穷的论文中,Bengio 的名字常常出现在作者列表的最后。在学术界,这通常意味着他是项目的指导者、实验室的负责人,为年轻研究者们的探索提供了方向、资源与最终的把关。这背后,其实正体现了他作为一位导师的另一重巨大贡献:培养下一代顶尖人才。

近期一篇有 Yoshua Bengio 署名的新论文(arXiv:2510.09660)

在科学之巅的谦逊与远见

2018 年,Bengio 与 Hinton、LeCun 共同站上了图灵奖的领奖台。

这只是 Yoshua Bengio 众多荣誉中的一项,他还获得了加拿大勋章、英国皇家学会院士、法国荣誉军团骑士勋章等众多荣誉,并被《时代》杂志评为全球百大影响力人物之一。

然而,面对潮水般的赞誉,Bengio 始终保持着一种科学家的谦逊与清醒。他不为名利所动,闲暇时喜欢阅读斯宾诺莎的著作,或是在家附近的树林里散步。他将学生们视为家人,享受与他们在一起的时光。他深知科学进步的敌人是自满与过度自信。他说:「自信是不够的,你可能既自信又错了。」

今天,Yoshua Bengio 的遗产是双重的。一方面,他是深度学习的奠基人,他的理论与算法构成了现代 AI 的基石,深刻地改变了我们的世界。另一方面,他正在成为这个时代最重要的技术伦理声音之一,以科学家的严谨和人文主义者的关怀,引领着一场关于 AI 未来方向的全球大讨论。

他的人生故事告诉我们,最伟大的科学家不仅要探索未知的边界,更要对自己的创造物怀有敬畏之心,并勇敢地承担起塑造未来的责任。在 AI 这个充满无限可能与潜在风险的十字路口,Bengio 正努力确保,我们选择的是那条通往更光明、更安全、更符合人类福祉的道路。

那一百万次引用,记录了过去的辉煌;而他当下的奔走与疾呼,则是在塑造下一个百万,乃至更遥远的未来。

参考链接

​https://scholar.google.com/citations?hl=en&user=kukA0LcAAAAJ​

​https://hai.stanford.edu/people/yoshua-bengio​

​https://time.com/collections/time100-ai-2025/7305845/yoshua-bengio-ai/​

​https://quantumzeitgeist.com/yoshua-bengio/​

​https://awards.acm.org/award_winners/bengio_3406375​

​https://www.exponentialview.co/p/yoshua-bengio-towards-ais-humanistic​

​https://ciela.science/team/yoshua-bengio/​

​https://yoshuabengio.org/profile/​

....

#STRESS-TESTING MODEL SPECS REVEALS CHARACTER DIFFERENCES AMONG LANGUAGE MODELS

Anthropic、Thinking Machines Lab论文曝光:30万次压力测试揭示AI规范缺陷

即便是最详细的模型规范,也存在内部矛盾、粒度不足与解释歧义。

现如今,LLM 正越来越多地受到模型规范的约束,这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI(宪法式 AI) 与 Deliberate Alignment(审慎对齐) 的核心基础。在这些框架中,研究者通过 RLHF 以及其他对齐技术,作用于模型的训练信号,从而直接影响模型的性格与价值取向。

然而,现有规范存在两大问题:首先,它们包含内部冲突,即在特定场景下,不同的原则彼此冲突。其次,它们存在覆盖范围的缺口,即使是详细的规则也缺乏提供一致行为指导所需的粒度。

本文中,来自 Anthropic、Thinking Machines Lab 等机构的研究者提出了一种系统化的模型规范压力测试方法(stress-testing methodology),可自动识别并刻画当前模型规范中存在的大量原则矛盾与解释歧义等问题。

值得注意的是,在作者名单中还出现了 John Schulman —— 这位前 OpenAI 联合创始人、现为 Thinking Machines Lab 首席科学家,再次参与了与模型对齐密切相关的前沿研究,此前是他领导了 ChatGPT 的 RLHF 研究与开发。

  • 论文标题:STRESS-TESTING MODEL SPECS REVEALS CHARACTER DIFFERENCES AMONG LANGUAGE MODELS
  • 论文链接:https://arxiv.org/pdf/2510.07686

研究团队首先构建了一个细粒度的价值体系(taxonomy),包含 3307 个由 Claude 模型在自然交互中表现出的价值观,其覆盖范围和精细程度远超当前主流模型规范。这些价值项大多代表积极的行为原则,是现代 LLM 理应遵循的价值目标。

基于该体系,研究团队生成了超过 30 万个查询场景,每个场景都迫使模型在两种价值观之间做出明确取舍。通过这种方式,研究者不仅能够揭示模型规范中潜在的原则冲突,还能在更广的价值维度上扩展测试覆盖范围。

随后,研究团队对来自 Anthropic、OpenAI、Google 和 xAI 的 12 个前沿 LLM 的回答进行了分析。

结果显示,在 30 万个测试场景中:

  • 超过 22 万个场景至少在两个模型之间存在显著分歧;
  • 超过 7 万个场景在大多数模型中都表现出明显的行为差异。

通过定性分析,本文进一步揭示了当前模型规范中存在的多种具体缺陷,包括:不同原则之间的直接冲突;某些原则在解释上的模糊与歧义。

方法介绍

图 1 为场景生成流程。

图片

首先,初始取舍场景往往表述较为中性,难以迫使模型在极端情况下作出明确选择。例如在图 1 中,「请告诉我你最喜欢的音乐作品」这一问题属于低风险场景,模型即使拒绝回答,也不会让用户感到不满。

为此,作者引入了价值偏置技术,通过这种偏置,查询数量增加了三倍。由于部分生成涉及敏感话题而被模型拒答,在过滤掉拒答与不完整样本后,最终得到超过 41 万个有效场景的数据集。

其次,为进一步提升多样性,作者还采用了三种不同的模型进行生成:Claude 4 Opus、Claude 3.7 Sonnet 以及 o3(推理模型),每个模型各自生成约三分之一的查询。

最后,在所有生成模型中,作者发现基于推理的模型在难度和对原始值的遵循度方面都能生成质量显著更高的查询。因此,所有的生成模型都运用了扩展思维。

场景过滤

接下来,作者主要探讨了不同前沿 LLM 在价值取向上的回答分歧。

研究团队针对前文生成的查询数据,收集了来自 12 个前沿模型的回答结果,这些模型包括:Claude 系列、OpenAI 系列、Gemini 2.5 Pro 以及 Grok 4。

研究发现,这些模型在面对同一问题时,经常给出显著不同的回答。

团队进一步根据模型间的分歧程度对场景进行筛选,并发现:分歧越大,越可能反映模型规范中的潜在问题。尤其是当多个模型遵循相同规范(例如 OpenAI 的一系列模型)却表现出明显不一致时,这种差异很可能说明模型在训练阶段接收的信号存在模糊或冲突。

那如何量化模型在价值取向上的分歧程度?

具体做法是:他们根据每个问题对应的两种价值观,评估模型回答更倾向哪一方,并将这种偏好程度用 0–6 表示(数值越高,代表越偏向某一价值)。

由于直接让模型打分往往结果不稳定、缺乏一致性,研究者采用了一个两阶段评估方法:

  • 自动生成评分标准:使用 Claude 4 Opus 根据问题和两种价值观,生成一套回答光谱(即从极度偏向到极度反对,共 0–6 个等级)。
  • 自动匹配评分:利用这套光谱标准,对 12 个模型的回答进行自动分类与评分,从而量化不同模型在价值取舍上的差异。

这种方法有效提升了测量一致性,使研究团队能够更系统地比较不同模型在价值偏置上的表现。

实验结果

模型规范符合性检查

作者首先评估了 OpenAI 模型的响应与其发布的模型规范之间的符合程度,结果是频繁出现模型规范不符合情况 —— 所有五个 OpenAI 模型均未能遵守其模型规范 —— 往往对应着模型规范自身存在的问题。

此外,作者还采用多个前沿模型作为「评审」来进行模型规范符合性检查。

作者向 Claude 3.5 Sonnet、GPT-4o 和 Gemini 2.5 Pro 这三个评审模型分别提供完整的 OpenAI 模型规范、以及由某个 OpenAI 模型在给定「生成场景」下的对应响应。

结果如表 2 所示,模型间分歧越高,与模型规范违反率上升的相关性越强。尤其能说明问题的是「频繁不符合」场景 —— 作者将其定义为所有五个 OpenAI 模型同时不符合其模型规范的场景。由于模型响应分歧越大,意味着响应策略越多样,那么在规范明确的前提下,符合性检查更可能至少找到一个可接受的响应。反之,若在多样响应中仍普遍出现规范违反,就很可能指向规范自身的根本性问题。

图片

正如表 2 所示,在 OpenAI 模型高分歧场景中发现的频繁违规场景数量,是随机生成的「价值权衡」场景的 4.6 倍。

而依据图 2 所示的不同分歧区间再采样 1000 个场景,结果进一步证实:分歧率越高,与「频繁不符合」越强相关。

值得注意的是,基于三个评审的多数投票来看,在高分歧场景中发现「频繁不符合」的比例(9.7%)相比低分歧场景(0.7%)提升了 13 倍以上。若以任一评审认定响应存在问题即视为不符合为标准,那么高分歧场景中出现「频繁不符合」比例高达 49.4%。

图片

分歧与符合性检查标记场景的定性分析

图 3 展示了作者根据不同标准选取的具体场景:一是原则性矛盾(fundamental contradictions),二是解释性模糊(interpretive ambiguity)。

图片

原则性矛盾:如图 3a 的第一个示例所示,当不同模型采用不同响应策略时,各自违反了模型规范中的不同原则,从而形成一个在逻辑上难以完全合规的困境场景。

解释性模糊:图 3a 的第二个案例显示,当模型面对需要主观解释的原则时,即使是合理的推理,也可能导致不同方向的选择。

图 3b 又展示了另一种情况,OpenAI 模型在行为上高度一致,却同时违反了模型规范中的多个原则,揭示出模型对齐过程中的内在冲突。

OpenAI 模型间高分歧但一致符合的情形:图 3c 又展示了高分歧与一致符合并存的情况,这揭示出模型规范在区分不同响应质量层次方面粒度不足的问题。

比如,用户请求在危险情境下制作自卫工具的指导。所有 OpenAI 模型都恰当地拒绝了提供利用家用物品制作枪支的指导,表现出对安全原则的一致遵守。差异性是有的模型进一步提供了替代性自卫策略和安全建议,有的模型则仅作出简单拒绝,并未提出任何建设性替代方案。

很明显,那些提供合法自卫建议的更全面回答实际上代表了更优的帮助质量,但现有模型规范的细化程度不足,无法识别这种细微的质量差异。

符合性评估模型对合规性判断模糊的情形:图 3d 展示了另一类案例:评审模型无法明确判断响应是否符合规范,从而揭示出规范本身存在的根本性歧义。

在这一示例中,Claude 4 Sonnet 无法确定响应是否符合 OpenAI 模型规范,核心的不确定性集中在这样一个问题上:潜在敏感请求中,免责声明(disclaimer)是否足以构成安全的响应?

这种不确定性直接反映了当前模型规范中的解释性空白。当评审模型本身无法做出明确的符合性判断时,这表明规范语言中存在内在模糊性,留下了大量主观解释空间。

此外,作者还进一步分析了三款评估模型在评估 OpenAI 模型规范符合性时的分歧模式,表明,规范的歧义不仅影响生成模型本身,也同样影响评估系统。

在对 5000 条响应样本的评估中,作者观察到合规判定存在显著差异。Claude 3.5 Sonnet 将 48.1% 的响应标记为存在问题,而 GPT-4o 与 Gemini 2.5 Pro 的标记比例分别为 35.5% 和 36.5%。

模型间两两一致率处于中等水平:Claude 3.5 Sonnet 与 GPT-4o 的一致率为 67.52%,与 Gemini 2.5 Pro 的一致率为 72.39%,而 GPT-4o 与 Gemini 2.5 Pro 达到了最高一致率 76.84%。

总体 Fleiss’ Kappa 系数为 0.42,表明评估者间一致性属于中等范围,这提示即使最先进的模型也难以保持规范要求解读的一致性。

表 3 展示了三个典型案例,显示评估者在分析相同查询 - 响应对时却得出对立结论。经作者团队验证,绝大多数分歧源于对规范原则的根本性理解差异,而非疏忽或错误。

图片

了解更多内容,请参考原论文。

....

#VLA-R1

让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界

图片

在机器人与智能体领域,一个老大难问题是:当你让机器人 “把黄碗放进白色空篮子” 或 “从微波炉里把牛奶取出来放到餐桌上” 时,它不仅要看懂环境,更要解释指令、规划路径 / 可操作区域,并把这些推理落实为准确的动作。目前,很多 VLA(Vision-Language-Action)模型仍倾向直接输出动作,缺乏对可供性(affordance)与轨迹(trajectory)几何关系的显式推理,一旦遇到颜色相近、目标重复或容器多选等场景,就容易出错。VLA-R1 的目标,不仅把 “会想” 这步补上,而且通过强化学习进一步加强执行动作的准确性,让机器人解释清楚再去准确执行。

VLA-R1 出场:它是什么?

  • 论文标题:VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
  • 文章链接:https://arxiv.org/abs/2510.01623
  • 项目主页:https://gigaai-research.github.io/VLA-R1/

一句话概括:VLA-R1 是一个 “先推理、后执行” 的 VLA(视觉 - 语言 - 行动)基础模型。它把链式思维(CoT)监督与可验证奖励的强化学习(RLVR,基于 GRPO)结合起来,同时优化 “推理质量” 和 “执行正确性”。简单说,就是让模型既能把思考过程讲明白,还能把动作做准。

关键创新点

1)两阶段训练:SFT + RL(基于 GRPO)

图片

先用显式 CoT 监督做有教师的指令微调(SFT),再用可验证奖励做后训练强化(GRPO)。后者通过组内归一化优势与 KL 约束,稳定地把 “会想” 转化为 “会做”。推理输出采用固定结构:<think>…</think> + <output>…</output>,从而保证可读、可查错。

2)三类 “可验证奖励”(RLVR)直击 “看准 + 走对 + 格式对”

  • 空间对齐奖励(GIoU):即使预测框与真值不相交也能得到有效梯度,也能提供有效梯度,显著加速区域对齐与学习稳定性;
  • 轨迹一致性奖励(引入角度及段长比值的 Fréchet 距离(ALHF)):综合位置、切向角度与段长尺度,惩罚 “轨迹形状不对,弯曲不合理,段长突变” 的情况;
  • 输出格式奖励:强制推理段与动作段结构化输出,减少 “答非所问”。

图片

3)VLA-CoT 数据引擎与 VLA-CoT-13K 数据集

为让模型 “学会按步骤思考”,作者用 Qwen2.5-VL-72B 自动生成可供性与轨迹两类任务的结构化 CoT,并在提示中固定四步范式,最终得到 13K 条与视觉 / 动作严格对齐的 CoT 标注,用作 SFT 的高质量监督信号。

图片

图片

实验速览

VLA-R1 在四个层级进行了系统评测:域内(In-Domain)测试、域外(Out-of-Domain)测试、仿真平台、真实机器人实验。此外还做了有无 CoT,RL 的消融实验以证明方法的有效性。

图片

基准集(In-Domain)

VLA-R1 的基准集来自团队自建的 VLA-CoT-13K 数据引擎,共含约 1.3 万条视觉 - 语言 - 行动样本,任务涵盖 “可供性识别(Affordance Detection)” 与 “轨迹规划(Trajectory Generation)” 两大类。场景以桌面和实验室为主,光照均匀、背景简洁,包含碗、杯、勺、笔、盒子、篮子等常见物体,每条数据都配有精确的区域标注、轨迹点坐标和配套的链式思维推理。

实验结果

  • 可供性 IoU:36.51,比强基线 ManipLVM-R1 提升 17.78%;
  • 轨迹平均误差(Avg):91.74,相对基线降 17.25%。

域外集(Out-of-Domain)

为了检验模型的泛化与语义迁移能力,研究团队引入两个全新测试集:UMD Dataset 与 VAIT Dataset。UMD 提供丰富的家庭物体及其功能标签(如 graspable、containable 等),而 VAIT 着重考察视觉场景与自然语言指令的对应关系。与基准集相比,域外数据在物体类别、背景风格、光照条件及语言结构上均存在显著差异,几乎不存在训练重叠。

实验结果

  • 可供性 IoU:33.96,在 UMD 数据集上仍然保持领先。
  • 轨迹平均误差(Avg):93.90,在 VAIT 子集上展现稳健泛化。

真实机器人(4 个餐桌场景)

在 VLA-R1 的真实机器人实验中,作者共设计了四个桌面场景(S1–S4),每个场景都针对不同的环境复杂度与视觉干扰进行布置,用以验证模型在真实视觉条件下的稳健性与泛化性。S1 为彩色碗拾取与放置场景,主要测试模型在多种颜色相近物体下的目标区分与空间定位能力;S2 为水果拾取场景,物体外观相似且数量较多,用于考察模型在同类物体识别与实例辨析下的可供性推理;S3 为厨房复杂遮挡场景,实验台上布置微波炉等大型遮挡物,考查模型在部分可见与非均匀光照环境下的稳健推理;S4 为混合杂乱场景,包含多类别、不同属性的日常物体,模拟多目标混放与多容器选择的真实桌面环境。四个场景均采用相同的机械臂与相机系统,在随机物体排列与任务顺序下独立进行十次实验,以评估模型在真实干扰条件中的整体稳定性与任务一致性。

图片

图片

  • 可供性感知 SR:62.5%;轨迹执行 SR:75%。
  • 在颜色相近、遮挡、目标扰动等干扰下,VLA-R1 仍能给出空间一致、接近目标的预测。

仿真(Piper / UR5,测试跨机器人平台通用性)

为测试跨平台通用性,VLA-R1 被部署到两种机械臂仿真环境:轻量级的 Piper 与工业级的 UR5。仿真任务涵盖多种随机物体与动作指令。

图片

图片

  • 可供性 SR:60% / 50%;轨迹 SR:80% / 60%,
  • 跨机器人维持较好成功率,显示出跨平台泛化潜力。

消融实验

为了测试 CoT,RL 的有效性,论文分别进行了直接输出轨迹,只用 CoT,以及 CoT+RL 后训练三种实验的对比

图片

  • 只用 CoT(无 RL):IoU 从 23.74 → 28.37,轨迹误差也小幅下降;
  • CoT + RL:进一步把 IoU 拉到 36.51,轨迹各项显著改进,说明 “先学会想,再用奖励把想法炼成动作” 是有效路径。

Demo 展示

思考过程展示

,时长00:18

真机平台

,时长00:35

,时长00:19

仿真平台

,时长00:04

应用前景

家居拾放 / 收纳等日常操控:面向客厅 / 厨房 / 书桌等开放环境,VLA-R1 可在多物体、光照不均、纹理干扰与部分遮挡下稳定完成 “找 — 拿 — 放” 的闭环。它先用显式推理消解 “相似目标 / 相近颜色 / 多个容器可选” 等歧义,再输出可供性区域与可执行轨迹,最终由低层控制栈完成抓取与放置。典型场景包括:将勺子→碗、笔→白盒、香蕉→篮子的收纳,或在反光桌面、杂物堆叠的桌面上进行安全、可解释的物品整理。

仓拣 / 轻工装配:在料箱拣选、工位配盘、工装上料等流程中,VLA-R1 把 “部件 — 工具 — 容器 / 工位” 的三元关系明确写在推理里(如 “为何选择该容器 / 该姿态 / 该路径”),再生成满足安全距离与路径顺滑度的轨迹,减少误抓与误放。它对重复件、套件、易混部件尤其有效:可在同批次零件中依据形状 / 位置 / 容器容量做出解释性选择;同时结构化输出便于与 MES/PLC/ 视觉检测系统对接,形成可追溯的产线闭环。

教学 / 评测平台:VLA-R1 的 < think>…</think>+<output>…</output > 格式天然适合教学演示与自动化评分:教师 / 研究者能直接检查 “任务解析、场景理解、可供性定位、可行性校验、轨迹逻辑” 等中间步骤是否合理。配合标准化的 IoU/Fréchet / 成功率等指标,可将其用作课程与竞赛的基线模型,学生只需替换数据或模块,即可对比 “仅 SFT”“SFT+RL”“不同奖励 / 不同数据引擎” 的差异,快速定位问题与量化改进效果。

作者介绍

叶安根是中国科学院自动化研究所模式识别与智能系统方向的在读博士,研究方向聚焦于强化学习、机器人操作、xx智能。曾参与多项科研项目,致力于通过强化学习构建少样本、多任务的通用机器人系统。

张泽宇是 Richard Hartley 教授和 Ian Reid 教授指导的本科研究员。他的研究兴趣扎根于计算机视觉领域,专注于探索几何生成建模与前沿基础模型之间的潜在联系。张泽宇在多个研究领域拥有丰富的经验,积极探索人工智能基础和应用领域的前沿进展。

通讯作者朱政,极佳科技联合创始人、首席科学家,2019 年博士毕业于中国科学院自动化研究所;2019 年至 2021 年在清华大学自动化系从事博士后研究。在 TPAMI、 CVPR、ICCV、 ECCV、NeurIPS 等顶级期刊和会议上发表论文 70 余篇,文章总引用 16000 余次 (Google Citations),连续 4 年入选全球前 2% 顶尖科学家榜单。

....

#Tell Me More!

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

本文第一作者为清华大学计算机系本科生钱成,何秉翔。两人均为 THUNLP 成员。钱成主要研究兴趣为工具学习,大模型驱动智能体,即将就读 UIUC 博士。何秉翔主要研究兴趣为大模型对齐与安全,即将就读清华大学博士。本文通讯作者为从鑫与林衍凯,指导教师为刘知远副教授。

在人工智能迅猛发展的今天,我们不断探索着机器的智能化,但却往往忽视了这些智能体如何深层地理解我们 —— 它们的创造者。我们人类在生活中的每一次互动,每一句话语,每一个行为,都充斥着意图和情感。但真正的挑战在于:这些隐式的意图如何被智能体捕捉、解析并作出反应?传统的智能体对明确的命令反应迅速,然而在理解复杂的人类隐式意图上,它们往往显得力不从心。

近年来,GPT 和 LLaMA 等语言模型展示了在解决复杂任务上的惊人能力。然而,尽管以它们作为核心的智能体擅长制定策略、执行任务,却很少兼顾鲁棒的用户交互策略。用户给出的任务通常是模糊和简短的,这就需要智能体不仅能理解我们的字面请求,更要能透视我们的隐式意图。

因此,让新一代的智能体落地并为大众所用,需要以人为中心,不仅仅关注于任务执行的精确度,更关注于如何与人类建立起一种更加自然、流畅而富有洞察力的沟通方式。

为了弥补这一缺失,近期来自清华大学、人民大学、以及腾讯的联合团队提出了一种全新的智能体交互设计方案。该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。

以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后,文章对完全态的智能体系统进行了全面评估。

结果显示,这套方案在识别模糊用户任务、恢复和总结关键缺失信息、设定精确且必要的智能体执行目标、以及减少冗余工具使用等诸多方面有着突出表现。这一创新的方法,不仅填补了智能体与用户交互的空白,将人类真正置于智能体设计的中心,同时意味着我们正在向着设计更加符合人类意图的智能体的目标迈进一步。

  • 论文标题:Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
  • 论文链接:https://arxiv.org/abs/2402.09205
  • 代码仓库:https://github.com/HBX-hbx/Mistral-Interact
  • 开源模型:https://huggingface.co/hbx/Mistral-Interact
  • 开源数据集:https://huggingface.co/datasets/hbx/IN3

图片

智能体系统对于模糊任务和清晰任务执行的对比

Intention-in-Interaction 基准测试

当前的智能体基准测试通常假设给定的任务是清晰的,并没有把用户意图理解当作评估的重要方面。鉴于评估指标的不完备性,该工作制定了 Intention-in-Interaction(IN3)基准测试,旨在通过明确的任务模糊性判断和用户意图理解来评测智能体的交互能力。

图片

IN3 基准数据的构造过程

如上图所示,基于人类编写的种子任务为 Step 1,模型迭代生成新任务以增强数据集,同时从数据集中采样以作为下一轮生成的新示例(Step 2)。在这种 Self-Instruct 的生成方式后,再对每个任务的模糊度、缺失细节以及每个细节的重要程度和潜在的选项进行人工标注(Step 3)。

Mistral-Interact 训练过程

由于大语言模型处于智能体设计的核心位置,该工作首先进行了一项初步研究,评估当前开源和闭源模型在交互过程中的隐式意图理解能力。

具体地,文章从 IN3 中随机抽取了十个任务,将它们应用于测试 LLaMA-2-7B-Chat、Mistral-7B-Instruct-v0.2 和 GPT-4 并指示这些模型 i)判断任务的模糊度,ii)在任务模糊时询问用户缺失的细节,iii)总结详细的用户任务。

图片

隐式意图理解初步研究中各个模型的定量与定性结果展示

由结果可见,Mistral 在一定程度上表现更好,但仍然存在对人类意图理解不足的问题。相比之下,GPT-4 在任务模糊度和重要缺失细节方面与人类意图最为接近。同时,初步探索也表明,为了进一步提升智能体在交互中的隐式意图理解能力,单纯的提示工程(prompt engineering)是不够的,有必要以当前开源模型为基础,进一步训练,以达到可以在智能体落地应用的程度。

图片

训练数据(IN3 对话记录)的构造过程

参照上图,根据 IN3 关于任务模糊度、缺失细节和潜在选项的标注,文章在构建对话记录过程中应用了若干策略(橙色框),其中包括:清晰初始推理链的构造、带有建议选项的询问构造、不同用户回答语气的构造、以及清晰总结推理链的构造。这几种对话构造策略将更好地激发目标模型的询问以及推理能力。

智能体交互能力全面评估

智能体的隐式意图理解能力既可以通过用户交互来直接评估,也可以通过智能体执行下游任务来间接评估。其中,用户交互关注意图理解本身,而任务执行关注意图理解的最终目的,即增强智能体处理任务的能力。

因此,为了全面评估可交互智能体设计,文章将实验分为两个部分:i)指令理解:评估智能体在用户交互期间的意图理解能力;ii)指令执行:评估集成了交互模型后智能体的任务执行表现。

指令理解并不涉及任何实时的智能体执行,因此文章直接评估了不同语言模型在交互过程中的表现,以判断其作为智能体设计中的上游模块的交互能力,结果如下表所示:

图片

指令理解测试结果,其中箭头代表得分越高 / 越低则能力更强

结果表明,Mistral-Interact 能够更好地理解用户的意图,在判断任务模糊度以及缺失细节的覆盖率等指标上表现最佳,而且能够基于详细的用户意图进行明确而全面的总结。相较于其他开源模型,Mistral-Interact 在询问模糊任务中的缺失细节方面能提供更加合理的选项,询问方式更加友好,并与 GPT-4 的表现不相上下。

在指令执行方面,为了评估隐式意图理解对于智能体任务执行有效性,文章将 Mistral-Interact 作为上游交互模块整合到 XAgent 框架中进行测试。其中,XAgent 可以在诸如网络搜索、代码执行、命令行和文件系统等环境中进行交互。

图片

指令执行测试结果 (ST 代表 subtask,MS 代表 milestone)

上表呈现了智能体任务执行的定量评估结果,结果表明整合 Mistral-Interact 有助于:i)在执行过程中避免设定不必要的目标,ii)使智能体的执行过程更加符合详细的用户意图,以及 iii)减少不必要的工具调用,促进智能体工具使用效率。

智能体交互案例分析

在指令理解方面,为了进一步展示 Mistral-Interact 在不同对话场景下的鲁棒性,文章还提供了三个案例分析。

图片

Mistral-Interact 与用户在不同场景下的案例分析

案例 A 展示了不同用户语气和对话风格对 Mistral-Interact 的影响。文章发现,无论用户的回答是简短还是详细,热情还是冷漠,甚至包含拼写错误,Mistral-Interact 都能准确理解并提供适当的回应,证明了其鲁棒性。

在案例 B 测试了当用户表现出不合作的态度时,Mistral-Interact 是否能够继续追问并引导对话回到正轨。结果显示,即使用户回避问题,其仍然能够有效地重新引导对话。

在案例 C 中可以观察到 Mistral-Interact 可以将用户提供的额外信息纳入总结,而这些信息并没有被交互模型明确询问。这表明,当模型的询问无法完全覆盖缺失细节或用户有特定要求时,模型仍然能够合理而全面地总结所有用户意图,从而使其更加用户友好。

在指令执行方面,为了更清晰阐明 Mistral-Interact 的作用,下图中提供了一个比较的案例研究。

图片

智能体与 Mistral-Interact 交互前后的执行过程的案例研究

根据上图中标记为浅红色的文本,可以发现当用户的目标模糊时,XAgent 无法准确设定精确反映用户需求的子任务。根据标记为紫色的文本,可以发现 XAgent 时常会设置一些不必要的子任务。这些均因为用户的任务过于模糊而无法执行,智能体倾向于虚构一些不必要的细节,从而与用户的真实意图不符。

相比之下,在与 Mistral-Interact 进行积极交互后,明确的任务目标能够让 XAgent 制定更具体的子任务。图中标记为绿色的文本展示了这种一致性。同时,智能体执行流程变得更加简单,工具调用次数也有所减少。所有这些都反映了一个更加高效的智能体执行过程。

结语

我们正站在一个全新的起点,准备见证一个人机协同、相互理解与学习的新篇章。智能体即将不再是冰冷的信息处理器,而是充满同理心的伙伴,它们能够通过细腻的交互体验,深刻理解我们背后可能并没有最初明确表达的需求和愿望。这场以人为中心的智能体设计革命,将揭示出交互中的无限可能性,进而让智能体真正成为我们生活中不可或缺的助力。

....

#基于欧几里得Transformer的新计算方法

2.5天完成1年的MD计算?DeepMind团队基于欧几里得Transformer的新计算方法

近年来,基于从头算参考计算的机器学习力场 (MLFF) 的开发取得了巨大进展。虽然实现了较低的测试误差,但由于担心在较长的模拟时间范围内会出现不稳定性,MLFF 在分子动力学 (MD) 模拟中的可靠性正面临越来越多的审查。

研究表明,对累积不准确性的稳健性与 MLFF 中使用等变表示之间存在潜在联系,但与这些表示相关的计算成本可能会在实践中限制这种优势。

为了解决这个问题,Google DeepMind、柏林工业大学(TU Berlin)的研究人员提出了一种名为 SO3krates 的 transformer 架构,它将稀疏等变表示(欧几里得变量)与分离不变和等变信息的自注意力机制相结合,从而无需昂贵的张量积。

SO3krates 实现了精确度、稳定性和速度的独特组合,能够对长时间和系统尺度上的物质量子特性进行深入分析。

该研究以「A Euclidean transformer for fast and stable machine learned force fields」为题,于 2024 年 8 月 6 日发布在《Nature Communications》。

背景与挑战性

分子动力学(MD)模拟通过长时间尺度的模拟,可以揭示系统从微观相互作用到宏观性质的演变,其预测精度取决于驱动模拟的原子间力的精确度。传统上,这些力来源于近似的力场(FF)或计算复杂的从头计算电子结构方法。

近年来,机器学习(ML)势能模型通过利用分子系统的统计依赖性,提供了更灵活的预测手段。

然而,研究表明,ML模型在基准数据集上的测试误差与长时间尺度MD模拟中的表现相关性较弱。

为改善外推性能,消息传递神经网络(MPNNs)等复杂架构被开发,特别是等变MPNNs,通过引入张量积捕捉原子间的方向信息,提高了数据的可转移性。

在 SO(3) 等变架构中,卷积是在球谐函数基础上对 SO(3) 旋转群进行的。通过固定架构中球谐函数的最大次数

图片

,可以避免相关函数空间的指数增长。

科学家已证明最大阶数与准确度、数据效率密切相关,并与 MD 模拟中模型的可靠性相关。然而,SO(3) 卷积的规模为

图片

,与不变模型相比,这可以将每个构象的预测时间增加多达两个数量级。

这导致了一种必须在准确性、稳定性和速度之间做出妥协的情况,还可能会带来重大的实际问题。必须先解决这些问题,这些模型才能在高通量或广泛的探索任务中发挥作用。

性能强劲的新方法

Google DeepMind、柏林工业大学的研究团队以此为动机,提出了一种欧几里得自注意力(Euclidean self-attention)机制,用原子邻域相对方向的过滤器代替 SO(3) 卷积,从而无需昂贵的张量积即可表示原子相互作用;该方法称为称为 SO3krates。

图片

图示:SO3krates架构和构建块。(来源:论文)

该解决方案建立在神经网络架构设计和几何深度学习领域的最新进展之上。SO3krates 使用稀疏表示来表示分子几何形状,并将所有卷积响应的投影限制在等变基函数中最相关的不变分量上。

图片

图示:学习不变量。(来源:论文)

由于球谐函数的正交性,这种投影对应于乘积张量的迹,可以用线性缩放内积来表示。这可以高效地扩展到高阶等变表示,而不会牺牲计算速度和内存成本。

力预测是根据所得的不变能量模型的梯度得出的,该模型代表自然等变的分段线性化。整个过程中,自注意力机制用于分离模型中的不变和等变基础元素。

该团队比较了 SO3krates 模型的与当前最先进的 ML 模型的稳定性和速度,发现该解决方案克服了当前等变 MLFF 的局限性,同时又不损害它们的优势。

研究人员提出的数学公式可以实现高效的等变架构,从而实现可靠稳定的 MD 模拟;与具有相当稳定性和准确性的等变 MPNN 相比,其速度可提高约 30 倍。

为了证明这一点,研究人员仅在几个小时内就对超分子结构运行了精确的纳秒级 MD 模拟,这使他们能够计算出从具有 42 个原子的小肽到具有 370 个原子的纳米结构的结构的收敛速度自相关函数的傅里叶变换。

图片

图示:结果概述。(来源:论文)

研究人员进一步应用该模型,通过使用最小值跳跃算法研究 10k 最小值,探索二十二碳六烯酸 (DHA) 和 Ac-Ala3-NHMe 的 PES 拓扑结构。

这样的研究需要大约 30M FF 评估,这些评估在几百 K 到 1200 K 之间的温度下进行。使用 DFT 方法,这种分析需要一年以上的计算时间。现有的具有类似预测精度的等变 MLFF 需要运行一个多月才能完成此类分析。

相比之下,该团队仅用 2.5 天就能完成模拟,从而有可能在实际时间尺度上探索数十万个 PES 最小值。

此外,SO3krates 能够检测训练数据中未包含的物理有效最小构象。外推到 PES 未知部分的能力对于将 MLFF 扩展到大型结构至关重要,因为可用的从头算参考数据只能覆盖构象丰富的结构的子区域。

该团队还研究了在网络架构中禁用等方差属性的影响,以更深入地了解其对模型特性及其在 MD 模拟中的可靠性的影响。

研究人员发现,等变性与所得 MD 模拟的稳定性以及更高温度的外推行为有关。能够证明,即使测试误差估计平均相同,等变性也会降低误差分布的扩散。

图片

图示:计算效率和 MD 稳定性。(来源:论文)

因此,通过等变表示使用方向信息在精神上与经典 ML 理论类似,其中映射到更高的维度可以产生更丰富的特征空间,这些特征空间更容易参数化。

未来的研究

在最近的一系列研究中,提出了旨在降低 SO(3) 卷积计算复杂度的方法。它们可以作为完整 SO(3) 卷积的替代品,而本文介绍的方法可以在消息传递范式中完全避免使用昂贵的 SO(3) 卷积。

这些结果都表明,等变相互作用的优化是一个尚未完全成熟的活跃研究领域,可能提供进一步改进的途径。

图片

图示:稳定、长时间尺度的 MD 模拟和对更大生物分子的外推。(来源:论文)

虽然该团队的工作,使得使用现代 MLFF 建模范式可以实现稳定的扩展模拟时间尺度,但未来仍需进行优化,以使 MLFF 的适用性更接近传统的经典 FF。

目前,该方向出现了各种有潜力的途径:在当前设计中,EV 仅根据二体相互作用进行定义。通过将原子簇扩展纳入 MP 步骤,可以进一步提高准确性。同时,这可能有助于减少 MP 步骤的数量,从而降低模型的计算复杂度。

另一个尚未讨论的问题是全局效应的适当处理。通过使用低秩近似、可训练的 Ewald 求和或通过以物理启发的方式学习长程校正。当需要外推到更大的系统时,后一种类型的方法尤为重要。

虽然等变模型可以提高局部相互作用的外推能力,但对于超出训练数据中存在的长度尺度或超出模型有效截止值的相互作用,这并不适用。

由于上述方法依赖于局部属性,例如部分电荷、电负性或赫什菲尔德体积,因此可以通过学习 SO3krates 架构的不变特征分支中的相应局部描述符,将它们无缝集成到该团队的方法中。

因此,未来的工作将集中于将多体展开、全局效应和长程相互作用纳入 EV 形式,并旨在进一步提高计算效率,最终以高精度跨越 MD 时间尺度。

论文链接:​​https://www.nature.com/articles/s41467-024-50620-6​

相关内容:​​https://phys.org/news/2024-08-faster-coupling-ai-fundamental-physics.html​

....

#我们离真正的多模态思维链推理还有多远

该文章的第一作者陈麒光,目前就读于哈工大赛尔实验室。他的主要研究方向包括大模型思维链、跨语言大模型等。

在过去的几年中,大型语言模型(Large Language Models, LLMs)在自然语言处理(NLP)领域取得了突破性的进展。这些模型不仅能够理解复杂的语境,还能够生成连贯且逻辑严谨的文本。

然而,随着科技的发展和应用场景的多样化,单一文本模态的能力显然已经不能满足现代需求。人们日益期待能够处理和理解多种模态信息(如图像、视频、音频等)的智能系统,以应对更复杂的任务和场景。研究者们开始尝试将文本 CoT 的能力扩展到多模态思维链推理领域,以应对更加复杂和多样化的任务需求。

最早的多模态思维链研究之一是由 Lu 等人 [1] 引入的 ScienceQA 基准,该基准结合了视觉和语言信息,推动了多模态思维链(Multi-modal Chain of Thought, MCoT)的研究。ScienceQA 数据集的出现,使得研究者们能够在一个统一的框架下评估多模态模型的思维链推理能力。

进一步地,Zhang 等人 [2] 的研究更是将 MCoT 的性能推向了一个新高,使得模型在 ScienceQA 数据集上的表现超过了人类的水平 (93%>88%)。然而,当前的多模态思维链研究是否真正解决了所有挑战?随着 ScienceQA 等基准测试的成绩不断刷新,我们是否可以认为多模态推理问题已经迎刃而解?

研究者们通过深入分析发现,当前的多模态思维链基准仍然存在严重的问题,导致对模型实际能力的高估。当前的多模态思维链基准仍面临以下三个严重的问题:视觉模态推理缺失仅有单步视觉模态推理以及领域覆盖不足

这些问题严重制约了多模态思维链领域的发展。因此,研究者提出了一个新的基准

图片

(Multi-Domain Multi-step Multi-modal Chain-of-Thought),旨在解决上述问题,并推动多领域、多步和多模态思维链的进步。研究者们还进行了全面的评估,涉及丰富的多模态推理设置与方法。

研究者们还发现当前的多模态大模型在 

图片

 上的表现存在巨大的性能缺陷,尽管它们在以前的传统多模态思维链基准上表现优异。最后,研究团队希望 

图片

 能够成为一个有价值的资源,为多领域、多步和多模态思维链的研究提供开创性的基础。

动机

尽管在 MCoT 研究领域取得了显著进展,但现有基准仍然存在诸多不足:

1. 视觉模态推理缺失:模型往往可以仅基于文本模态生成推理和答案,这并不能真实反映多模态 CoT 模型的能力。

2. 单步视觉模态推理:比如说,只需要看到单次图片中的 “羽毛” 便可直接获得答案。而在实际应用中,多步推理更为常见和必要,要求模型在推理的过程中动态的多次结合多模态信息进行综合推理。

3. 领域缺失:对于思维链来说,常识推理和数学推理是该领域的重要组成部分,而现有基准缺乏对常识和数学等重要领域的覆盖,限制了多模态 CoT 能力的综合评估。

图片

针对以上问题,研究者们开发了一个新基准

图片

,并希望推动多领域、多步和多模态思维链的研究与发展。

图片

数据构建过程

图片

图片

 的构建涉及如下四个关键阶段:

  • 视觉模态推理缺失样本移除
  • :首先,为解决视觉模态推理缺失的问题,
  • 图片

  • 多步多模态样本构建
  • :这一阶段中,为了保证基准满足多步多模态的要求,
  • 图片

  • 首先自动的去除了推理路径过短的样本,随后通过手动去除和优化样本,确保每一个样本确实需要跨模态的多步推理。
  • 多模态 CoT 领域增强
  • :此外,
  • 图片

  • 通过引入数学和常识领域的数据,将 LaTeX 代码转为图片,并利用大模型生成更多的问题、推理路径和答案,增强了基准的多样性和挑战性。
  • 质量检查
  • :为了保证数据集的质量,
  • 图片

  • 实施了多轮人工审核和自动检测,确保数据的一致性和准确性。

主流多模态大语言模型评测结果

研究者们在多个大型视觉语言模型(VLLMs)上进行了广泛的实验,包括 Kosmos-2、InstructBLIP、LLaVA-V1.5、CogVLM、Gemini 和 GPT4V 等。研究者们还探索了一些提示策略,如直接提交样本、思维链提示(CoT)[3] 以及描述性提示(Desp-CoT)[4] 和场景图思维链提示策略(CCoT)[5]。

实验结果与结论如下所示:

  • 开源模型与 GPT4V 仍有差距
  • :尽管这些模型在现有基准测试中表现优异,但在 
  • 图片

  • 上的表现仍有显著差距。尤其是当前的开源 VLLMs 在多步多模态推理方面表现不佳,与 GPT4V 相比存在显著差距。
  • GPT4V 与人类仍有差距
  • :此外,尽管 GPT4V 在 
  • 图片

  • 多模态思维链涌现现象:视觉大模型在参数级别超过 100 亿(≥13B)时表现出思维链涌现现象。

图片

分析

此外,为了回答如何能够在 

图片

 上获得更好的表现。研究者们提供了更全面的分析,从而揭示了当前 VLLMs 在多步多模态推理方面的显著不足,为未来的优化提供了方向。

图片

  • 单步推理任务的表现远优于多步推理任务。模型在解决多步多模态推理时性能与单步多模态推理有接近 30% 的差距,且随步骤数增加,性能递减。这表明模型在处理复杂多步骤推理时仍存在困难。
  • 图片

  • 提高模型生成的推理过程质量对于提升 
  • 通过评估多维度的推理质量,研究者们观察到推理质量的提升与 
  • 图片

  •  的性能呈现指数级相关关系。提升多模态推理的逻辑质量是解决 
  • 图片

图片

  • 多模态信息交互的增加能够显著提升模型的推理性能。由于 
  • 图片

  •  要求推理时动态的包含多个跨模态推理步骤,则至少有 2 步跨模态推理,而现有模型推理过程中,平均的跨模态推理步骤数小于 1。这说明未来的研究应注重提高推理过程的质量和多模态信息的交互,以解决当前模型在 
  • 图片

图片

探索

在此基础上,研究者们进一步探究了当前各种常用的多模态方法与设置,探究是否能够有效的解决 

图片

 中的问题。

工具使用探索

在多模态推理中,工具使用被认为是提高模型性能的一种有效策略。研究者们在实验中评估了多种工具使用方法,包括 HuggingGPT、VisualChatGPT、IdealGPT 和 Chameleon 等模型。

文本大模型使用多模态工具在 

图片

 上表现不佳:实验结果表明,尽管这些工具在单模态任务中表现良好,但在 

图片

 基准上的表现仍存在显著差距。例如,HuggingGPT 在处理复杂的多步推理任务时,由于缺乏对视觉信息的有效利用,表现较为逊色。此外,VisualChatGPT 和 IdealGPT 在处理需要多模态交互的任务时,表现也未能达到预期。这些结果表明,当前的工具使用框架需要进一步改进,以更好地整合和利用多模态信息。

图片

上下文学习探索

在上下文学习方面,研究者们探索了不同的示例策略对模型性能的影响。具体而言,研究者们评估了纯文本示例以检测模型在多模态推理时是否会进行文本形式的学习,同时还评估了多模态示例以检测模型在多模态推理时是否会利用多模态示例进行上下文学习。

纯文本示例无法提高 

图片

 上的性能:实验结果显示,对于纯文本示例来说,这些样本数量对模型性能影响几乎可以忽略不计,这说明,纯粹的文本形式的模仿并不足以解决 

图片

 问题。

图像和文本交错的多模态示例甚至可能会损害 

图片

 上的性能:对于多模态示例来说,上下文学习仅仅能够提高较大模型的能力。然而,对于一些训练过多模态交互数据的模型来说,甚至会随着样本数量增加而出现性能下降。因此,研究者们认为,未来需要将包含逻辑的更高质量的图像和文本交错示例用于上下文学习的训练,并增强多模态大模型的多模态交互能力,才能够在一定程度上改善模型的表现。

图片

指令微调探索

为了进一步提高模型在 

图片

 上的表现,研究者们进行了微调实验。

指令微调能够显著增强传统视觉语言模型(VLMs)的性能:指令微调使传统视觉语言模型超越零样本视觉大模型,这就是我们的数据集在提高 VLM 有效性方面的价值。经过微调的 VLM(最低为 44.85%)优于大多数具有零样本提示的开源 VLLM(最高为 38.86%)。

指令微调能够进一步地增强大型视觉语言模型的性能:通过在 

图片

 数据集上进行微调,LLaVA-V1.5-13B 模型的整体准确率提高了近 20%,并接近了 GPT4V 的水平。

因此,研究者们建议未来的研究可以更多地关注指令微调技术,以进一步提升多模态推理模型的表现。

图片

结论及展望

研究者们引入了一个新的基准 

图片

,旨在推动多领域、多步和多模态思维链的研究。研究者们的实验和分析表明,尽管现有的 VLLMs 在某些任务上表现优异,但在更复杂的多模态推理任务上仍有很大改进空间。通过提出 

图片

,研究者们希望能够重新评估现有的进展,并通过指出新的挑战和机会,激发未来的研究。研究者们期待 

图片

 能够成为一个有价值的资源,为多领域、多步和多模态思维链的研究提供开创性的基础。

....

#PhAI

数百万晶体数据训练、解决晶体学相位问题,深度学习方法PhAI登Science

时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。

丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法 PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。

研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅 2 埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的 10% 到 20%,而传统的从头算方法通常需要原子分辨率。

相关研究以《PhAI: A deep-learning approach to solve the crystallographic phase problem》为题,于 8 月 1 日发布在《Science》上。

论文链接:​​https://www.science.org/doi/10.1126/science.adn2777​

晶体学是自然科学中的核心分析技术之一。X 射线晶体学为晶体的三维结构提供了独特的视角。为了重建电子密度图,必须知道足够多的衍射反射的复杂结构因子 F。在传统实验中,只能获得振幅 |F|,而相位 ϕ 会丢失。这是晶体学相位问题。

图片

图示:标准晶体结构测定流程图。(来源:论文)

20 世纪 50 年代和 60 年代取得了重大突破,Karle 和 Hauptmann 开发了用于解决相位问题的所谓直接方法。但直接法需要原子分辨率的衍射数据。然而,原子分辨率的要求是一种经验观察。

近年来,传统的直接方法已被对偶空间方法所补充。目前可用的从头算方法似乎已达到极限。相位问题的普遍解决方案仍然未知。

从数学上讲,结构因子振幅与相位的任何组合都可以进行逆傅里叶变换。然而,物理和化学要求(例如具有原子状电子密度分布)对与一组振幅一致的相位的可能组合施加了规则。深度学习的进步使得人们能够探索这种关系,也许比目前的从头算方法更深入。

在此,哥本哈根大学的研究人员采用了数据驱动的方法,使用数百万个人造晶体结构及其相应的衍射数据,旨在解决晶体学中的相位问题。

研究表明,这种基于深度学习的从头算结构解决方案方法,可以在仅最小晶格平面距离(dmin)= 2.0 Å 的分辨率下执行,只需要使用直接方法所需数据的 10% 到 20%。

神经网络的设计与训练

构建的人神经网络称之为 PhAI,接受结构因子振幅 |F| 并输出相应的相位值 ϕ 。PhAI 的架构如下图所示。

图片

图示:PhAI 神经网络方法解决相位问题。(来源:论文)

晶体结构的结构因子数量取决于晶胞大小。根据计算资源,对输入数据的大小设置了限制。输入结构因子振幅是根据 Miller 指数 (h、k、l) 服从

图片

 的反射来选择的。

也就是,限制在原子分辨率下晶胞尺寸约为 10 Å 的结构。此外,选择了最常见的中心对称空间群 P21/c。中心对称性将可能的相位值限制为零或 π rad。

研究使用主要包含有机分子的人工晶体结构训练神经网络。创建了大约 49,000,000 个结构,其中有机晶体结构占 94.29%,金属有机晶体结构占 5.66%,无机晶体结构占 0.05%。

神经网络的输入由振幅和相位组成,它们由卷积输入块处理,添加并输入到一系列卷积块(Conv3D)中,然后是一系列多层感知器(MLP)块。来自线性分类器(相位分类器)的预测相位通过网络循环 Nc 次。训练数据是通过将 GDB-13 数据库中的金属原子和有机分子插入到晶胞中生成的。生成的结构被组织成训练数据,从中可以计算出在采样温度因子、分辨率和完整性时的真实相位和结构因子振幅。

解决真实结构问题

经过训练的神经网络在标准计算机上运行,计算需求适中。它接受 hkl 索引列表和相应的结构因子振幅作为输入。不需要其他输入信息,甚至不需要结构的晶胞参数。这与所有其他现代从头算方法有着根本区别。网络可以即时预测并输出相位值。

研究人员使用计算得出的真实晶体结构的衍射数据测试了神经网络的性能。共获得 2387 个测试用例。对于所有收集的结构,考虑了多个数据分辨率值,范围从 1.0 到 2.0 Å。为了进行比较,还使用了电荷翻转方法来检索相位信息。

图片

图示:相位和真实电子密度图之间的相关系数 r 的直方图。(来源:论文)

经过训练的神经网络表现出色;如果相应的衍射数据分辨率良好,它可以解决所有测试结构(N = 2387),并且在从低分辨率数据中解决结构方面表现出色。尽管神经网络几乎没有针对无机结构进行训练,但它可以完美地解决此类结构。

电荷翻转法在处理高分辨率数据时表现优异,但随着数据分辨率的降低,其产生合理正确解的能力逐渐下降;然而,它仍然以 1.6Å 的分辨率解决了大约 32% 的结构。通过进一步试验和更改输入参数(例如翻转阈值),可以改善通过电荷翻转确定的结构数量。

在 PhAI 方法中,这种元优化是在训练期间执行的,不需要由用户执行。这些结果表明,在晶体学中必须有原子分辨率数据才能从头算相位的普遍观念可能被打破。PhAI 仅需要 10% 至 20% 的原子分辨率数据。

这一结果清楚地表明,原子分辨率对于从头算方法来说不是必需的,并为基于深度学习的结构测定开辟了新途径。

这种深度学习方法的挑战是扩展神经网络,也就是说,较大晶胞的衍射数据将需要大量的输入和输出数据以及训练期间的计算成本。未来,需要进一步研究,将该方法扩展到一般情况。

....

Logo

为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士,涵盖了多个领域,包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动,为开发者提供更多的学习和交流机会。

更多推荐