多智能体通信：通过深度多智能体强化学习学习交流

题目：Learning to Communicate with Deep Multi-Agent Reinforcement Learning出处：Neural Information Processing Systems 29 (NIPS，2016)摘要：我们考虑的问题是多智能体在环境中的感知和行动，目的是最大限度地发挥其共享效用。在这些环境中，智能体必须学习通信协议，以便共享解决任务所需的信息

燕双嘤

1263人浏览 · 2022-04-16 21:01:49

燕双嘤 · 2022-04-16 21:01:49 发布

题目：Learning to Communicate with Deep Multi-Agent Reinforcement Learning

出处：Neural Information Processing Systems 29 (NIPS，2016)

摘要：我们考虑的问题是多智能体在环境中的感知和行动，目的是最大限度地发挥其共享效用。在这些环境中，智能体必须学习通信协议，以便共享解决任务所需的信息。通过采用深度神经网络，我们能够在复杂环境中演示协议的端到端学习，其灵感来自通信谜题和具有部分可观测性的多智能体计算机视觉问题。我们提出了两种在这些领域进行学习的方法：强化的Agent间学习（RIAL）和可微的Agent间学习（DIAL）。前者使用深度Q-learning，而后者利用了这样一个事实，即在学习过程中，智能体可以通过（噪声）通信信道反向传播错误导数。因此，这种方法使用集中学习，但分散执行。我们的实验为学习通信协议引入了新的环境，并提出了一系列工程创新，这些创新对这些领域的成功至关重要。

1，引言

语言和交流是如何在智能智能体之间出现的，长期以来一直是一个激烈争论的话题。许多尚未解决的问题包括：语言为什么使用离散结构？环境扮演什么角色？什么是天生的，什么是后天习得的？等等关于这些问题的一些辩论非常激烈，以至于1866年法国科学院禁止了有关人类语言起源的出版物。

近年来机器学习的快速发展，尤其是深度学习，为这场辩论开启了一扇新的视角之门。智能体如何使用机器学习自动发现协调其行为所需的通信协议？深度学习能为这些智能体人提供什么？我们可以从学会沟通的智能体的成功或失败中获得哪些见解？

在本文中，我们迈出了回答这些问题的第一步。我们的方法是程序化的：首先，我们提出了一组需要通信的多智能体基准任务；然后，我们为这些任务制定了几种学习算法；最后，我们分析了这些算法是如何学习或未能学习智能体的通信协议。

我们考虑的任务是完全合作的，部分可观察的，顺序的多智能体决策问题。所有智能体都有一个共同的目标，就是最大化相同的折扣奖励金额。虽然没有一个智能体可以观察到潜在的马尔可夫状态，但每个智能体都会收到一个与该状态相关的私有观察。除了采取影响环境的行动外，每个智能体还可以通过离散的有限带宽通道与其他智能体通信。由于部分可观测性和有限的信道容量，智能体必须找到一个通信协议，使他们能够协调自己的行为并解决任务。

我们专注于集中学习但分散执行的环境。换句话说，在学习过程中，智能体之间的通信不受限制，学习是通过一个集中的算法进行的；然而，在学习策略的执行过程中，智能体只能通过有限的带宽通道进行通信。虽然并非所有现实世界的问题都可以用这种方式解决，但很多问题都可以。例如，在模拟器上训练一组机器人时。集中规划和分散执行也是多智能体规划的标准范例[1,2]。

为了解决这个问题，我们制定了两种方法。第一种是智能体间的强化学习（RIA），它使用深度Q-learning和循环网络来解决部分可观测性问题。在这种方法的一种变体中，我们称之为独立Q学习，每个智能体都学习自己的网络参数，将其他智能体视为环境的一部分。另一种变体训练单个网络，其参数在所有智能体之间共享。执行仍然是分散的，在这一点上，他们会收到不同的观察结果，导致不同的行为。（缺乏中心）

第二种方法是可差分智能体间学习（DIAL），它基于这样一种思想：集中学习提供了比参数共享更多的改善学习的机会。特别是，虽然RIA可以在一个智能体内进行端到端的训练，但它不能跨智能体进行端到端的训练，也就是说，智能体之间没有梯度。可差分智能体间学习（DIAL）允许真正有价值的消息在集中学习期间在智能体之间传递，从而将通信行为视为智能体之间的瓶颈连接。因此，梯度可以通过通信通道推进，从而产生一个即使跨智能体也可以进行端到端训练的系统。在分散执行期间，实值消息被离散化，并映射到任务允许的离散通信操作集。由于DIAL通过智能体之间的梯度，因此它本质上是一种深度学习方法。

基于MNIST数据集和一个众所周知的谜语的两个基准任务的实验表明，这些方法不仅可以解决这些任务，而且还可以在过程中发现较好的通信协议。据我们所知，这是首次利用深度神经网络的可微通信或强化学习成功地在涉及序列和原始图像的复杂环境中学习通信协议。研究结果还表明，通过更好地利用集中学习的机会，深度学习是学习此类协议的独特强大工具。最后，本研究提出了一些工程创新，这些创新对于学习我们提出的基准中的通信协议至关重要。

2，相关工作

关于通信的研究跨越了许多领域，例如语言学、心理学、进化论和人工智能。在人工智能中，它被分成几个轴：预定义或学习的通信协议、规划或学习方法、进化或RL、合作或竞争。

鉴于本文的主题，我们将重点研究通信协议的合作学习。在[4–7]等关于具有通信的多智能体RL的大量工作中，只有少数属于这一类。大多数人都假设一个预定义的通信协议，而不是试图学习协议。Kasai等人[7]的工作是一个例外，在这项工作中，表格Q学习智能体必须学习消息的内容，才能通过通信解决捕食者-猎物任务。[8]给出了多智能体任务中开放式交流学习的另一个例子。在[8]中给出了多智能体任务中的开放式通信学习的另一个例子。这里的进化方法用于学习在类似的捕食者 - 猎物任务上评估的协议。他们的方法使用了一个精心设计的适应度函数来加速学习。总的来说，启发式和手工规则在这一研究领域广泛流行。此外，典型任务必须很小，因此可以应用全局优化方法，如进化算法。本文提倡的深度表达和基于梯度的优化是一个重要的出发点，对于可扩展性和进一步的过程[9]中提供了类似的原理，这是使RL问题端到端可微的另一个例子。

不像最近的工作在[ 10 ]，我们考虑离散通信信道。我们的方法的一个关键组成部分是分散执行期间的信号二值化。这与最近使用二进制权重在内存和计算受限的低功耗设备中拟合神经网络的研究有关，例如[11]，以及之前发现文件二进制代码的工作[12]。

3，背景

Deep Q-Networks (DQN)：在一个完全可观察的单智能体RL设置[13]中，智能体在每个离散时间步 $t$ ，观察当前状态 $s_t\in S$ ，选择一个动作 $u_t\in U$ 根据一个潜在的随机策略 $\pi$ ，观察到一个奖励信号 $r_t$ ，并转换到一个新的状态 $s_{t+1}$ 。其目标是最大化折扣回报的预期， $R_t=r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}+...$ ，式中， $r_t$ 是在时间 $t$ 时收到的奖励， $\gamma\in \left [ 0,1 \right ]$ 是一个折扣系数。策略的Q函数 $\pi$ 是 $Q^{\pi}(s,u)=\mathbb{E}\left [ R_t|s_t=s,u_t=u \right ]$ 。最优行动价值函数 $Q^*(s,u)=max_{\pi}Q^{\pi}(s,u)$ ，根据贝尔曼方程可得:

$Q^*(s,u)=\mathbb{E}_{s^{'}}\left [ r+\gamma max_{u^{'}}Q^*(s^{'},u^{'})|s,u \right ]$

深度Q-learning [3]使用以 $\theta$ 为参数的神经网络来表示 $Q(s,u;\theta)$ 。DQN通过最小化以下内容进行优化：

$L_i(\theta_i)=\mathbb{E}_{s,u,r,s^{'}}\left [ \left ( y_i^{DQN}-Q(s,u;\theta_i) \right )^2 \right ]$

在每次迭代 $i$ 中，都会计算目标： $y_i^{DQN}=r+\gamma max_{u^{'}}Q(s^{'},u^{'};\theta_i^{-})$ 。其中 $\theta_i^{-}$ 是在更新在线网络 $Q(s,u;\theta_i)$ 时通过多次迭代的目标网络的参数。动作 $u$ 由动作选择器从 $Q(s,u;\theta_i)$ 中选择，动作选择器通常执行 $\varepsilon$ 贪婪策略，选择概率为 $1-\varepsilon$ 的最大Q值的动作并以 $\varepsilon$ 的概率随机选择。 DQN还使用经历回放：在学习过程中，智能体构建一个情节体验数据集，然后通过采样小批量体验进行训练。

Independent DQN：DQN已经扩展到多智能体协作设置，其中每个智能体 $a$ 观察全局 $s_t$ ，选择一个单独的行动 $u_t^a$ ，并在所有智能体之间共享团队奖励 $r_t$ 。Tampuu等人[14]通过一个将DQN与独立Q-learning相结合的框架来解决这个问题，在这个框架中，每个智能体 $a$ 独立地同时学习自己的Q-funcation $Q^a(s,u^a;\theta_i^a)$ 。虽然独立Q-learning原则上会导致收敛问题（因为一个agent的学习会使环境对其他agent来说变得非平稳），但它有很强的经验记录[15,16]，并成功地应用于两人乒乓球。

Deep Recurrent Q-Networks：DQN和Independent DQN都假设完全可观测，即智能体接收 $s_t$ 作为输入。相比之下，在部分可观测的环境中， $s_t$ 是隐藏的，agent只接收到与 $s_t$ 相关的观测 $o_t$ ，但通常不会消除它的歧义。 Hausknecht和Stone[17]提出了深度循环Q网络（DRQN）来解决单个智能体、部分可观察的设置。他们不是用前馈网络来近似 $Q(o,u)$ ，而是用一个递归神经网络来近似 $Q(o,u)$ ，该神经网络可以维持内部状态并随时间聚合观测值。这可以通过添加额外的输入 $h_{t-1}$ 来建模表示网络的隐藏状态，产生 $Q(o_t,h_{t-1},u)$ 。为了简单起见，我们省略了 $Q$ 对 $\theta$ 的依赖关系。

4，设置

在这项工作中，我们考虑多个智能体和部分可观测性的RL问题。所有智能体都有一个共同的目标，就是最大化相同的折扣奖励金额 $R_t$ 。虽然没有智能体可以观察到潜在的马尔可夫状态 $s_t$ ，但每个智能体 $a$ 接收到一个与 $s_t$ 相关的私有观察 $o_t^a$ 。在每个时间步骤 $t$ 中，每个智能体选择一个环境动作 $m_t^a\in M$ 影响环境，以及沟通行动是由其他智能体人观察到的，但对环境或报酬没有直接影响。我们对这种设置感兴趣，因为只有当多个智能体和部分可观测性共存时，智能体才有进行通信的动机。由于没有预先给出通信协议，智能体必须开发并同意这样一个协议来解决任务。

由于协议是从动作观察历史到消息序列的映射，协议的空间是非常高维的。在这个领域自动发现有效的协议仍然是一个难以捉摸的挑战。特别是，由于需要智能体协调消息的发送和解释，探索这一协议空间的难度更大。例如，如果一个智能体向另一个智能体发送了一条有用的消息，那么只有当接收智能体正确地解释并执行该消息时，它才会收到积极的奖励。如果没有，发送者将被阻止再次发送该消息。因此，积极的回报很少，只有在发送和口译适当协调时才会产生，这很难通过随机探索发现。

我们关注的是，在集中学习期间，智能体之间的通信不受限制，但在分散执行学习策略期间，智能体只能通过有限的带宽通道进行通信。

5，方法

5.1，强化的主体间学习

最直接的方法是将DRQN与独立的Q学习相结合，用于行动和交流选择，我们称之为智能体间的强化学习（RIA）。每个智能体的Q网络代表 $Q^a(o_t^a,m_{t-1}^{a^{'}},h_{t-1}^a,u^a)$ ，该智能体的个人隐藏状态 $h_{t-1}^a$ 和观察 $o_t^a$ 以及来自其他智能体的 $m_{t-1}^{a^{'}}$ 。

为了避免需要具有 $|U||M|$ 输出的网络，我们将网络拆分为 $Q_u^a,Q_m^a$ ，分别为环境和通信操作的Q值。与[18]类似，动作选择器使用 $\varepsilon$ 贪婪策略分别从 $Q_u$ 和 $Q_m$ 中选择 $u_t^a$ 和 $m_t^a$ 。因此，网络只需要 $|U|+|M|$ 输出，动作选择需要在 $U$ 上最大化，然后在 $M$ 上最大化，但不在 $U\times M$ 上最大化。

$Q_u$ 和 $Q_m$ 均使用DQN进行训练，并进行了以下两项修改，这些都被发现对性能至关重要。首先，我们禁用体验重播来解释当多个智能体同时学习时发生的非平稳性，因为它会使体验过时并产生误导。其次，为了考虑部分可观测性，我们输入每个智能体采取的动作 $u_t^a$ 和 $m_t^a$ ，作为下一时间步的输入。图1（a）显示了信息如何在智能体和环境之间流动，以及动作选择器如何处理Q值，以生成动作 $u_t^a$ 和消息 $m_t^a$ 。由于这种方法将智能体视为独立的网络，所以学习阶段不是集中的，尽管我们的问题设置允许集中。因此，在分散执行期间，智能体的处理方式与学习期间完全相同。

图1：底部和顶部行分别表示智能体a1和智能体a2的通信流。在RIA（a）中，所有Q值都被输入到动作选择器，该选择器同时选择环境和通信动作。红色显示的梯度是使用DQN计算选定动作的，并且仅通过单个智能体的Q网络流动。在图（b）中，消息绕过动作选择器，由DRU（第5.2节）处理，并作为连续值传递给下一个C网络。因此，梯度在智能体之间流动，从接收者到发送者。为简单起见，在每个时间步中，只有一个智能体高亮显示，而另一个智能体则灰显。

Parameter Sharing：通过在智能体之间共享参数，可以扩展RIA以利用集中学习的机会。这种变体只学习一个网络，由所有智能体使用。然而，智能体仍然可以有不同的行为，因为他们收到的信息不同观察，从而演化出不同的隐藏状态。此外，每个智能体都会收到自己的索引 a 作为输入，使其能够进行专业化。深度Q-网络中的丰富表达可以促进共同政策的学习，同时也允许专业化。参数共享还大大减少了必须学习的参数数量，从而加快了学习速度。在参数共享下，智能体学习两个Q函数 $Q_u(o_t^a,m_{t-1}^{a^{'}},h_{t-1}^a,u_{t-1}^a,m_{t-1}^a,a,u_t^a)$ 和 $Q_m(o_t^a,m_{t-1}^{a^{'}},h_{t-1}^a,u_{t-1}^a,m_{t-1}^a,a,u_t^a)$ 。在分散执行期间，每个智能体使用自己的学习网络副本，演化自己的隐藏状态，选择自己的操作，并仅通过通信通道与其他智能体通信。

5.2，可微的Agent间学习

虽然RIA可以在智能体之间共享参数，但它仍然没有充分利用集中学习。特别是，智能体不会就他们的沟通行为相互提供反馈。与之相比，人类的交流充满了紧密的反馈循环。例如，在面对面的交流中，听者会向说话者发送快速的非语言队列，以表明理解和兴趣的程度。RIAL缺乏这种反馈机制，这对学习通信协议非常重要。

为了解决这一局限性，我们提出了可微智能体间学习（DIAL）。DIAL背后的主要观点是，集中学习和Q网络的结合不仅可以共享参数，还可以通过通信渠道将梯度从一个智能体推到另一个智能体。因此，虽然RIA可以在每个智能体内进行端到端的训练，但DIAL可以跨智能体进行端到端的训练。让梯度从一个智能体流向另一个智能体，可以为他们提供更丰富的反馈，减少通过尝试和错误进行学习所需的量，并简化有效协议的发现。

DIAL的工作原理如下：在集中学习期间，通信行为被一个智能体网络的输出和另一个智能体网络的输入之间的直接连接所取代。因此，虽然任务将通信限制为离散消息，但在学习期间，智能体可以自由地向彼此发送真正有价值的消息。由于这些消息的功能与任何其他网络激活一样，梯度可以沿着通道回传，从而允许跨智能体的端到端反向传播。

特别是，我们称之为 C-Net 的网络输出两种不同类型的值，如图1（b）所示，a） $Q(\cdot)$ ：环境动作的Q值，反馈给动作选择器。b） $m_t^a$ ：实值向量消息传递给其他智能体，后者绕过动作选择器，由离散化/正则化单元（DRU（mat））处理。在集中学习期间， $DRU(m_t^a)=Logistic(N(m_t^a,\sigma))$ ，其中 $\sigma$ 是添加到通道中的噪声的标准偏差，在分散执行期间， $DRU(m_t^a)=1\left \{ m_t^a>0 \right \}$ ，DRU将其离散化。图1显示了RIAL和DIAL中梯度的不同流动。 $Q_u$ （RIAL）和 $Q$ （DIAL）的梯度链基于DQN损耗。然而，在DIAL中， $m$ 的梯度项是从消息接收者到发送者的反向传播错误。使用此智能体间梯度进行训练，可提供比RIAL中 $Q_m$ 的DQN损失更丰富的训练信号。虽然DQN错误仅对所选消息是非零的，但传入的梯度是一个 $|m|$ 维向量，可以包含更多信息。它还允许网络直接调整消息，以最大限度地减少下游DQN损失，减少对良好协议的试错学习需求。

虽然我们将分析限制在离散的消息上，但DIAL自然会处理连续的消息空间，因为它们在集中学习期间无论如何都会被使用。同时，DIAL还可以扩展到大型离散消息空间，因为它学习二进制编码，而不是RIA中的一种热编码， $|m|=O(log(|M|))$ 。

6，实验

在本节中，我们将评估两个多智能体问题中有无参数共享的RIA和DIAL，并将其与无通信共享参数基线（NoComm）进行比较。给出的结果是几次运行的平均性能，其中没有参数共享（-NS）的运行用虚线表示。在不同的情节中，如果能够访问真实状态（Oracle），奖励将通过可实现的最高平均奖励标准化。

在我们的实验中，我们使用 $\epsilon =0.05$ 的 $\epsilon$ -贪婪策略，折扣因子 $\gamma =1$ ，目标网络每100 episodes重置一次。为了稳定学习，我们分32个批次执行平行事件。使用RMSProp[19]优化参数，学习率为5×10−4。该架构使用校正的线性单元（ReLU），和门控循环单元（GRU）[20]，其表现与长-短期记忆[21]（LSTM）[22]相似。除非另有说明，否则我们将添加到通道中的噪声的标准偏差设置为 $\sigma =2$ ，这对于良好的性能至关重要。

6.1，实验结构

RIAL和DIAL共享同一个单独的模型架构。为了简洁起见，我们这里只描述DIAL型号。如图2所示，每个智能体由一个重新运行的神经网络（RNN）组成，该神经网络展开 $T$ 个时间步，维持内部状态 $h$ ，一个用于生成任务嵌入 $z$ 的输入网络，以及一个用于 $Q$ 值和消息 $m$ 的输出网络。智能体 $a$ 的输入定义为 $(o_t^a,m_{t-1}^{a^{'}},u_{t-1}^a,a)$ 的元组。输入 $a$ 和 $u_{t-1}^a$ 通过查找表传递，而−1至1层MLP，均产生大小为128的嵌入件。 $o_t^a$ 是通过一个特定于任务的网络进行处理的，该网络会产生相同大小的额外嵌入。状态嵌入是由这些嵌入的元素相加产生的， $z_t^a=(TaskMLP(o_t^a)+MLP[|M|,128](m_{t-1})+Lookup(u_{t-1}^a)+Lookup(a))$ 。我们发现，当使用批量归一化层[23]来预处理 $m_{t-1}$ 时，性能和稳定性得到了改善。 $z_t^a$ 通过两层RNN和GRU进行处理， $h_{1,t}^a=GRU[128,128](z_t^a,h_{1,t-1}^a)$ ，用于近似智能体的动作观察历史。最后，顶部GRU层的输出 $h_{2,t}^a$ ，通过一个2层MLP $Q_t^a$ ， $m_t^a=MLP[128,128,(|U|+|M|)](h_{2,t}^a)$ 。

6.2，开关谜语

有100个无期徒刑囚徒，被关在100个独立的小房间，互相无法通信。每天会有一个囚徒被随机地抽出来放风，随机就是说可能被抽到多次。放风的地方有一盏灯，囚徒可以打开或者关上，除囚徒外，没有别人会去动这个灯。每个人除非出来防风，是看不到这个灯的。一天，全体囚徒大会，国王大赦，给大家一个机会：如果某一天，某个囚徒能够明确表示，所有的囚徒都已经被放过风了，而且的确如此，那么所有囚徒释放；如果仍有囚徒未被放过风，那么所有的囚徒一起处死！

结构：在我们的形式化过程中，在时间步 $t$ ，智能体 $a$ 观察到 $o_t^a\in \left \{ 0,1 \right \}$ ，表示智能体是否在放风。由于开关有两个位置，因此可以将其建模为 $1$ 位消息 $m_t^a$ 。如果智能体 $a$ 在放风，那么他的行动就是 $u_t^a=\left \{ "None","Tell" \right \}$ ；当智能体选择“告诉”或达到最大时间步长 $T$ 时，该 epicho 结束。除非智能体选择 $"Tell"$ ，否则奖励 $r_t$ 为 $0$ 。在这种情况下，如果所有智能体已经到放风为 1，否则为 -1。按照谜语的定义，在这个实验中只对放风的智能体 $a$ 开放。最后，我们设置时间范围 $T=4n-6$ 为了使实验在计算上易于处理。

复杂性：开关谜语带来了重大的协议学习挑战。在任何时间步 $t$ ，对于给定的智能体，都有 $|o|^t$ 种可能的观察历史，当 $|o|=3$ 时：智能体要么不在放风，要么在放风时收到两条信息中的一条。对于这些历史记录中的每一个，智能体可以在 $4=|U||M|$ 不同选项之间进行选择，因此在时间步 $t$ ，单智能体策略空间是 $(|U||M|)^{|o|^t}=4^{3^t}$ 。所有时间步的所有策略的乘积定义了智能体的总策略空间： $\prod 4^{3^t}=4^{(3^{T+1}-3)/2}$ ，其中 $T$ 是最后一个时间步。多智能体的策略空间大小以 $n$ 为单位呈指数增长，即智能体数： $4^{n(3^{T+1}-3)/2}$ 。我们考虑一个设置，其中 $T$ 与智能体的数量成比例，因此总的策略空间是 $4^{n3^{O(n)}}$ 。当 $n=4$ 时，大小为 $4^{354288}$ 。我们使用DIAL的方法是将交换机建模为一条连续消息，在分散执行期间对其进行二值化。

图4：切换：（a-b）拨号和资本的性能，有和没有（--ns）参数共享，n = 3和n = 4智能体的Nocomm-Baseline。（c）提取N = 3的决策树以解释拨号发现的通信协议。

实验结果：图4（a）显示了我们对 $n=3$ 个智能体的结果。这四种方法都能在5k集中学习到最佳策略，大大优于NoComm基线。带有参数共享的拨号盘比RIAL更快地达到最佳性能。此外，参数共享加快了这两种方法的速度。图4（b）显示了 $n=4$ 的调试的结果。参数共享拨号再次优于所有其他方法。在此设置中，没有参数共享的RIA无法超过NoComm基线。这些结果说明了智能体独立学习同一协议是多么困难。因此，参数共享对于学习交流至关重要。DIAL-NS的性能与RIA类似，表明梯度提供了更丰富、更可靠的信息源。我们还通过抽样1K个事件，分析了DIAL在n=3时发现的通信协议，图4（c）显示了对应于最佳策略的决策树。当一名囚犯在第二天之后放风，只有两种选择：一名或两名囚犯可能以前访问过放风。如果当时有三个囚犯，第三个囚犯就会完成游戏。其他选项可分别通过“开”和“关”位置进行编码。

6.3，MNIST 游戏

在这一节中，我们基于已知的MNIST数字分类数据集考虑两个任务。

彩色数字MNIST是一个两人游戏，其中每个智能体观察红色或绿色随机MNIST数字的像素值，同时隐藏颜色标签和数字值。奖赏由两部分组成，这两部分在动作、颜色和挖掘的奇偶性上是不对称的。由于只能发送一位信息，智能体必须同意对颜色或奇偶校验进行编码/解码，奇偶校验产生更大的回报。游戏有两个步骤；在第一步中，两个智能体都发送一个1位消息，在第二步中，它们选择一个二进制操作。

多步MNIST是一种灰度变体，需要智能体开发一种通信协议，该协议集成了5个时间步的信息，以便猜测彼此的数字。在每一步中，智能体交换一个1位的消息，在最后一步，t=5，对于每个正确猜测的数字，他们被授予r=0.5。补充材料中提供了关于这两项任务的更多细节。

架构：输入处理网络是一个两层 $MLPTaskMLP\left [ \left ( |c|\times28\times 28 \right ),128,128 \right ](o_t^a)$ 。图5描述了两款游戏的通用设置。我们的实验评估显示，在第一层之后，使用批量标准化训练可以缩短训练时间。

实验结果：图6（a）和图6（b）显示，在这两种游戏中，DIAL的表现远远优于其他方法。此外，参数共享对于达成最优协议至关重要。在多步骤MNIST中，结果是σ=0.5。在这个任务中，RIA无法学习，而在彩色数字MNIST中，它在协议空间的局部极小值附近波动；NoComm基线停滞在零。DIAL的性能可归因于直接优化消息以减少全局DQN错误，而RIA必须依靠试错。由于智能体之间的梯度传递，DIAL还可以针对多个时间步之后发生的奖励优化消息内容，从而在多步MNIST中实现最佳性能。为了分析DIAL学习到的协议，我们取样了1K集。图6（c）显示了智能体1在时间步t发送的通信位，作为其输入位数的函数。因此，每个智能体都学习了数字的二进制编码和解码。这些结果表明，DIAL中的可微通信对于充分利用集中学习的能力至关重要，因此是研究通信协议学习的重要工具。

6.4，信道噪声的影响

语言为何演变为离散语言的问题已经研究了几个世纪，例如，参见[26]中的概述。由于戴尔学会了在连续的渠道中交流，我们的研究结果为这个话题提供了一个启发性的视角。特别是，图7显示，在开关谜语中，在通信信道中无噪声拨号可以学习集中激活。相比之下，噪音的存在迫使mes-SAGE在学习过程中进入两种不同的模式。在培训文档模型[12]和执行分类[11]时，也对添加噪声进行了类似的观察。在我们的工作中，我们发现增加噪音对成功训练至关重要。

7，结论

本文提出了学习通信协议的新环境和成功技术。它提供了一个详细的对比分析，涵盖了与深度网络通信协议学习相关的重要因素，包括可微通信、神经网络架构设计、信道噪声、绑定参数和其他方法学方面。

本文应被视为用深度学习方法学习交际和语言的第一次尝试。要充分理解沟通和语言，包括组合性、概念提升、对话主体和许多其他重要问题，这项艰巨的任务仍然摆在面前。然而，我们乐观地认为，本文提出的方法有助于应对这些挑战。