主动推理-人工海马

lyy-独立开发者

11人浏览 · 2026-07-04 00:42:03

lyy-独立开发者 · 2026-07-04 00:42:03 发布

2026年07月04日 00:21
发言人 00:00
制造能够思考的机器是人类长久以来的梦想，但这到底意味着什么呢？智能的一个显著特性是能够泛化知识，并灵活地将其应用于新情况。这种泛化确实是现代机器学习的核心问题之一。在这段视频中，我们将探讨如何汲取海马体负责记忆和导航的大脑结构的生物学组织，来构建一个能够学习构建抽象和泛化的计算模型。我们将探索这个模型带给我们关于大脑自身及人工智能领域的启示。

发言人 00:41
在开始之前我要提醒大家，这是认知地图系列视频的全集的后续内容。上一次我们探讨了海马体计算的神经生物学背景，并引入了一些基本原则。如果你还没看过，强烈建议你在观看这段视频之前先回顾一下，因为我们将从那里开始深入探讨。如果你对此感兴趣，请继续关注我们的最新动态。

发言人 01:10
想象你是一个在世界上漫步的代理，其唯一目标是找到奖励。从进化的角度看，你可以将这样的代理视为一个早期需要寻找食物或伴侣的生物体。作为这个代理，你有一系列可以采取的动作，例如激活一组肌肉去朝某个特定方向移动，为了选择最有利可图的动作，你需要能够预测动作的结果，这实际上需要对周围环境的心理模型，拥有这样的模型能让你在脑海中进行心理模拟，从而权衡不同的行动，比如，如果我直走会发生什么，或者转向右边会更好吗？

发言人 01:53
在你的生活中，当你接触到各种不同的环境时，最初你可能会为每种环境建立一个纠缠谈的不可分割的模型，而不必将这些模型彼此关联起来。然而，如果你在构建表示时力求优化，你就会察觉到等等我到目前为止建立的这些模型其实有很多共同之处。实际上阻碍的墙壁、通向新领域的门以及二维空间的基本结构，这些在任何一个环境中都具有相似的功能，所以这些共同元素可以轻松重用。换言之，将每个模型分解或提取基本模块是有意义的，比如空间结构、边界、元素、奖励等的基本模块。一旦掌握了这些模块，我们就可以动态的重组和组合它们，构建出新的世界模型，从而实现灵活的行为。

发言人 02:52
您可能还记得在第一部分提到的这正是哺乳动物海马体的功能。我们可以在特定细胞的反应中找到神经生物学证据来证实这一过程。现在的问题是我们能否教会机器做同样的事情。为了让人工系统更容易处理这个问题，我们将其形式化为预测任务。具体来说，模型会接收一系列观察值以及导致这些观察值的动作序列，然后学习正确预测序列中下一个观察值。从生物学角度看，这其实很有道理。大量数据表明，大脑的主要目的可能是预测即将到来的刺激，并尽量减小预测误差，这就是所谓的预测编码理论。

发言人 03:37
比如考虑一下观察值和动作序列，你能告诉我序列中的下一个元素应该是什么吗？这看起来似乎不可能，对吧？但如果你告诉我这些动作1到4实际上代表北、西南和东四个方向，你又怎么说？现在任务变得简单多了，因为你了解如何把这些动作串联起来的规则，你可以预测下一个观察值会与第一个相同，因为你本质上形成了一个闭环。换句话说，了解空间结构极大的简化了预测问题，但模型当然不会知道这种底层结构，因为那样就没意思了。相反它需要从观察值和动作序列中找出重复模式，从而推断出底层世界的结构。例如经过大量此类序列的观察，他应该能推断出不同动作之间相互关联的规则，这相当于构建了空间结构。值得指出的是，尽管我说模型会学习世界的底层结构，但他实际上并没有被明确告知要这样做。

发言人 04:53
从某种意义上说，模型没有其他目标，只是预测序列中的下一个观察值。本质上它只是一个包含大量参数的复杂数学表达式。它接受编码观察值和动作的数字集对其进行运算，然后输出一组对应于预测的下一个观察值的数字。但由于我们训练它最小化预测误差，且这些观察并非随机，而是来自某个有结构的世界，因此预测问题的最优解是构建出这个支撑观察规律的世界的结构表征。所以我们期待关于结构的知识会在优化过程中自然涌现。那么模型应该是什么样子呢？好吧，因为我们可以自由选择任何架构，所以从每天都解决这个问题的现有生物机器中汲取灵感，合理的那就是海马体。

发言人 05:54
在上一视频中我们了解到海马体接收来自侧海马体皮层的两种输入，物流及感觉输入及我正在看到的信息，以及来自内侧海马体皮层的结构信息，他们在海马体中被结合成一个联合的表征。类似的，我们的模型将拥有与内侧海马体区域类似的结构，用于追踪世界中的当前位置，我们就称它为位置模块吧。在每一点时间，它会接收到一个动作，并利用它来计算当前位置的估计，即对在空间中位置的最佳猜测。你可以将这种位置信息视为由其内部神经元激活模式编码的。请注意位置模块完全依赖于动作，不接受任何关于感官观察的信息。同样的，如果你闭上眼睛在房间里走动，即使你看不见任何东西，你也能大致知道自己的位置。这是因为大脑能够积累自运动向量并估计位置，这一过程被称为路径整合。因此，训练完这个模块后，我们期望位置模块也能做到同样的事情。

发言人 07:18
另一个关键组件是海马体本身，它将地点信息与视觉信息相结合，这种结合实际上在两个输入之间建立了关联。因此我们需要添加一个记忆模块，它会接收位置模块提供的位置信息以及这一系列感官输入，并在内存中存储遇到的每一个组合。它本质上是记忆位置和观察之间的关联。我在看到麦的时候在X但是如果不能检索记忆存储它们就毫无意义了。重要的是，由于这是一个关联记忆模块，它应该能够从部分信息中重建完整的记忆。例如我们可以只提供它位置信息，他会去搜索存储的记忆，找出哪些观察是在这个位置伴随下的。换句话说，他能回答的问题就是上一次我在这里是看到了什么。同样的，我们可以只提供他感官观察，他就能检索出位置，我上一次看到这个石是在哪里。

在这里插入图片描述
发言人 08:31
现在我们已经有了解决预测问题的所有必要组件。现在让我们逐步了解训练好的模型在预测，例如在绘制家谱时会如何一步步的做出成功的预测。记住它应该能够学习任何类型的结构，而不仅仅是四个相连的网格。所以我们从约翰开始，通过姐妹动作过渡到玛丽，然后通过女儿动作到凯特。最后我们给模型一个标记为叔叔的动作，让他做出预测。

发言人 09:05
内部发生的事情是这样的，首先位置模块对当前位置有一定的初始信念，他与约翰的信息结合，这个结合的结果被存储在记忆模块中。接着姐妹动作输入到位置模块，她提出一个新的位置信念，然后与玛丽的信息结合，将这个新的联合存储在记忆中。类似的女儿动作用于更新位置模块的内部状态，将其与凯特的信息结合起来，再送到记忆模块，最后输出动作被馈送到位置模块。关键的是最终得到的位置信息棘神经元激活的模式与我们开始时的相同。这是因为经过在遵循相同规则的许多家谱上训练后，位置模块被设置为在遇到这类循环时总是返回到同一位置。换句话说，控制世界图上转换逻辑的一般法则被嵌入到了位置模块更新其状态的规则中。

在这里插入图片描述
发言人 10:17
成功执行路径整合后，我们返回到起始位置，但是没有对应的感官观察，需要记忆。相反，由于模型达到了序列的末尾，他试图预测下一个观察结果，但他有路径整合的位置来指导这个预测，于是他带着位置信息查询记忆模块，并检索出对应于此特定位置的感官观察。对我们的情况来说是约汉太棒了，对吧？到目前为止，我们只是在理论上探讨这个真空中的球体模型，但它真的有效吗？如果有效，那它能告诉我们关于我们自身的导航系统什么。评估模型性能的最直接方法是看其准确性，其他正确预测的百分比。而且重要的是观察准确性的增长速度，这就是我的意思。
在这里插入图片描述

发言人 11:17
想象一下我们没有这个复杂的机器，而是一个简单的查找表。它仅记忆所有转换作为成对出现的事物。前一个观察加上动作等于新观察，因此他会存储这样的记忆，约翰加上妹妹等于玛丽，玛丽加上女儿等于凯特等等。为了预测下一个观察结果，她只需扫描查找表并搜索特定的组合。

发言人 11:42
以我们的家谱例子来说，首次尝试时他无法预测凯特的叔叔是约翰，因为之前他并未遇到这种特定的组合。换句话说，要达到100%的准确性，他需要先遇到所有可能的观察和动作组合。这意味着模型的性能取决于他所访问的图中边的数量。相反，他们AN调用机不需要被明确告知每个节点的每个行动的最终结果。因为它拥有结构的概念。例如如果我告诉你凯特是玛丽的女儿，这足以让你自动推断出其他关系。这本质上意味着对于GEM来说，达到100%的准确性只需要访问所有节点，而不是所有可能的边。因此其性能取决于被访问的节点的比例，这比边的比例增长要快得多。

在这里插入图片描述
发言人 12:46
所以我们这个机器似乎确实构建了一个世界的映射，好极了。但他所谓的大脑内部到底发生了什么？首先让我们看看位置模块内部，记住关于当前位置的信念是由神经元群集的激活模式编码的。但我们也能够询问单个神经元，观察他在代理随机漫步时的具体情况。为了方便理解，我将展示在模型在常规的四连接网格上训练后的结果，这些类似于物理2D空间，而不是社会等级。

发言人 13:23
值得注意的是，我们发现位置模块中的单个单元会根据位置发展出周期性的活动模式。他们用不同大小的规则六边形网格覆盖空间，或者这些周期性的条纹，就像哺乳动物大脑中海马体的网格细胞和带状细胞编码位置一样。而且单个单元的选择性在不同环境中保持不变，这表明他们确实能够泛化。

发言人 13:54
记忆模块中的神经元负责不同的任务，由于它们结合了位置和感觉信息，当上游的两个成分都活跃时，每个神经元都会被激活。事实上，记忆模块中的神经元类似于不同大小的海马体位置细胞，它们在特定的空间区域发出神经冲动。重要的是，和真实大脑中海马体的表示一样，他们的激发模式会因环境不同而变化，因为接收到的观察内容不同，这被称为海马体的重映射。

发言人 14:31
我想强调的是，这种网格状和位置类似的表现从未硬编码到模型中。我们首先用本质上是随机的参数开始让模型自我优化，以找出预测问题的最佳解决方案。而这些响应就这样自然的出现了。

发言人 14:49
到目前为止，我们已经训练模型在特定环境中随机漫步产生的序列上，这意味着所有的观察都是等可能的。但在现实生活中，动物并不会真的通过扩散移动，他们倾向于奖励并探索物体。他们喜欢靠近墙壁，因为感觉安全并避免开阔的空间。所以问题在于，如果改变感官观察的统计特性，让某些刺激比其他更常见，这是否会对我们模型中为了预测问题的最优解决方案而涌现的表示产生影响？例如，让我们用模拟实际老鼠行为的观察序列来训练GM，老鼠更倾向于在边界附近停留并接近物体。在这种情况下，位置模块中涌现的表征包括边界细胞，它们对世界边界有选择性，以及物体以向量细胞，只要动物与物体处于特定距离和方向时就会被激活。这两种类型的反应同样在实验中观察到记录来自边缘皮层，时而记忆模块中的一些神经元发展出对特定物体的特异性，类似于海马体的地标细胞。

发言人 16:13
如果我们将一个更复杂的序列，比如模仿执行交替任务的动物模型，能成功学习到奖励会在两侧交替的规则。重要的是记忆模块中一些神经元的表征类似于实验中观察到的分隔细胞，他们受未来转弯的位置和方向影响。这表明GEM有能力学习并映射其观察中并未直接提供的潜在空间。关于GEM如何映射潜在空间的另一个例子，为我的paper in支持者提供了额外的剪辑。更多详细内容请看视频结尾，太棒了。

发言人 16:57
现在我们有了一个能够泛化且自然发展出类似海马体结构空间表示的模型，那么我们可以从中得到哪些启发？请记住，粘土细胞会发生重映射，这意味着它们在不同环境中会改变最佳激发位置。这个过程长期以来被认为相当随机，因为这些表示的漂移方式看起来没有明确的逻辑。但有了海马体结构模型，我们可以开始从全新的角度来回答这个问题。

发言人 17:30
请注意我们记忆模块中的神经元类似玩乐细胞的那些，实际上是感官和结构信息的结合。这意味着特定位置细胞的激发在一定程度上由提供结构信息的镉细胞调控。比如在一个环境中，某一特定位置细胞的位置恰好与某个特定网格细胞的六边形活动模式重合，那么当我们改变环境和位置细胞重映射时，它的位置区域会转移到另一个位置，该位置仍在这一网格上。换句话说，重映射并非完全随机，而是由网格细胞控制的，从而保留了部分结构信息。位置细胞和网格细胞位置之间的这种联系意味着在两个环境中，位置细胞和网格细胞的激发位置的相关程度应该存在。模型中确实如此。而且值得注意的是当作者在实验数据上检验这个预测时，他们在真实大脑中也发现了这一情况。

发言人 18:41
好了，我知道这是一大堆信息，让我们试着把所有内容串联起来构建世界内在模型的问题，对生物和人工智能都是核心议题。通过将周围环境分解成模块，并与特定的感官上下文相结合，实时生成新的模型，从而实现快速泛化。这种方法可以解决这个问题。这种分解和组合可以在计算模型中演示，当它被要求预测序列中的下一个观察结果时，他会学习到世界底层的关联结构。这种模型中自然产生的表示类似于海马体中发现的真人神经元，这提示了边缘系统和海马体之间交互的统一框架。我希望借此机会向原TA要用论文的第一作者James musics博士表达深深的感谢。以及我的朋友和在机器学习领域专家gas，他在准备此视频脚本时给予了我极大的帮助。

发言人 19:53
最后我想说，我们今天看到的他们agent dom机器实际上非常类似于t transformer架构。这是一种在现代机器学习中处于核心的神经网络类型。事实上稍作修改，我们就能将这种相似性转化为精确的数学等价关系。这种经过修改的版本名为zen agent bm机器transformer，学习速度更快，表现更佳，同时大部分时候仍保持着对生物表示的相似性，这为神经科学与现代机器学习之间提供了非常有前景的联系，使得这两个领域比以往任何时候都更加令人激动。我知道这是一个非常简化了的描述，但要深入探讨这种等效性，就需要详细讲解transformer网络和helpful网络了。在评论区告诉我，如果你希望看到更多此类技术内容的视频，同时如果你对机器学习感兴趣并不想等待，让我告诉你一个能让你的理解更上一层楼的东西。

发言人 21:00
Brilliant dialog brilliant是一个革命性的互动学习平台，被动阅读教科书的时代已经过去。在brilliant上，你将通过动手实践方式参与学习、解决问题、回答问题，并参与到令人惊叹的互动可视化中，这有助于你形成对内容的直觉理解。观看完此视频后，你可能会特别感兴趣的课程是人工神经网络，他提供了一个易于理解的介绍，进入人工智能世界，以及他如何受到人脑的启发。你将学习神经网络如何运作，如何构建自己的神经网络，甚至如何训练它们识别模式。但这只是冰山一角，在八十多门课程中选择，而ilan能满足各种需求。通过个性化的学习方式，你可以按照自己的节奏一点一滴的学习。今天就提升你的好奇心。

发言人 21:57
访问BRA来来提点G开始30天的免费试用，体验brilliance的所有内容。前200个通过此链接的人可以享受订阅服务的8折优惠。如果你喜欢这个视频，请按下点赞按钮与朋友和同事分享，并在还没订阅频道的话加入关注，考虑在配置上支持我，一起提出视频主题，享受额外的内容。敬请期待更多有趣话题的后续内容，再见。感谢你对大脑表现出的浓厚兴趣。

亚马逊云科技技术品牌专区

更多推荐

HashiCorp Nomad与Consul集成

对于追求敏捷性、可靠性与安全性的现代IT组织而言，采用Nomad与Consul的集成方案，意味着能够以更低的复杂度和更高的自动化水平，管理从传统单体应用到现代微服务的各类工作负载，从而更专注于创造业务价值，而非纠缠于底层基础设施的复杂性。这正体现了HashiCorp工具哲学的核心：通过清晰的工具边界与无缝的集成，化繁为简，赋能云原生运维。此外，Consul提供了强大的网络功能，包括基于意图（Int

亚马逊云科技技术品牌专区

Java分布式架构设计方法

服务拆分后，服务间的通信成为关键。事件驱动架构是另一种有效解耦和数据同步的方式，服务通过发布/订阅领域事件进行通信，借助Apache Kafka或RabbitMQ等消息中间件，可以实现事件的可靠传递与异步处理，提升系统整体响应能力。从业务拆分出发，选择恰当的通信与治理模式，妥善处理数据一致性，并构建完善的运维支撑体系。随着云原生理念的深入，Serverless、Service Mesh等新技术也在