bd79366120d6769ae483509bcbb67856.gif

©作者 | 牟宇滔

单位 | 北京邮电大学

研究方向 | 自然语言理解

神经网络经常出现过度自信问题(overconfidence),表现为对 in-distribution 和 out-of-distribution 的数据都产生比较高的概率置信度,这是 OOD 检测的一个最基础的概念。本文提出一种 Logit Normalization 方法,在训练过程中将 Logit 的范数限定为一个常数,对传统的交叉熵损失进行修正,来缓解这种 overconfidence 问题。

07693aa75c461699ddb6c8930ff32354.png

论文标题:

Mitigating Neural Network Overconfidence with Logit Normalization

收录会议:

ICML 2022

论文链接:

https://arxiv.org/abs/2205.09310

168e3660636abf9bec570dfe8258ff2b.png


研究动机

之前 OOD 检测的研究主要聚焦于设计一种比 maximum softmax probability (MSP) 更好的指标来度量 OOD 不确定性。但是很少研究关注神经网络过度自信的原因,以及如何缓解神经网络的过度自信。


作者认为这才是 OOD 检测的本质问题。作者首先做了一个分析,看神经网络训练过程中,Logit 范数的变化。可以发现即使大多数训练示例被分类到正确的标签,softmax 交叉熵损失也可以继续增加 Logit 向量的大小。因此,训练期间不断增长的幅度会导致过度自信问题。

3eac32b01ab4aa85c2eb86e8c32f86d6.png

▲ 训练过程中,IND和OOD的Logit Norms都在不断增大,这导致一个较大的置信度分数,不利于区分IND和OOD

为了缓解上述问题,直接的想法就是在训练过程中将 Logit 范数限定为一个常数,同时保持 Logit 向量方向不变(本文提出的 LogitNorm 方法)。

97fae0e179ffeff98c3bb6796ff48812.png


方法


2.1 分析为什么softmax交叉熵会影响overconfidence

假设神经网络的 pre-softmax 输出为 f(向量),不失一般性可以将这个向量分解成范数*单位向量形式。

f016bd5270c1c0aad51d4e1cedf7c251.png

有以下推论:

1. Logit 向量的每一个维度的元素同时扩大 s 倍,不会影响 softmax 分类结果;

d9f532056b9bdc70f7d58e39283caba5.png

2. 但是对 Logit 向量的每一个维度的元素同时扩大 s 倍,会影响 softmax 置信度分数,使得置信度分数变高。

74de7b371dc7a9359c7b7cf434827744.png

换句话说,Logit 向量的大小增大,将造成更大的 softmax 置信度分数,但是不影响分类结果接下来分析对交叉熵训练目标的影响,如果训练目标采用下面这个交叉熵损失,那么训练过程中损失值不断减小,会使得 Logit 范数不断增大,由上述推论(2)可知会得到更高的 softmax 置信度分数。

c3d17844d7f8e0df3cfce838e50921cc.png

2.2 提出方法

为了解决上述提到的 softmax 交叉熵鼓励网络产生范数较大的 Logit,导致过度自信,不利于区分 IND 和 OOD 的问题。作者的 idea 是将范数大小的影响和网络优化过程进行解耦,换句话说,就是在训练过程中保持 Logit 范数为一个常数值。

b3383664f8e4423e6ae4eda05a53d0c1.png

在现代神经网络的背景下执行约束优化并非易事,作者也提到简单用拉格朗日乘数法可能在这种深度神经网络上效果不好(具体证明比较复杂感兴趣可以看原文)。为了解决这个问题,我们将上述带约束的目标转换为可替代的端到端可训练的损失函数。 

具体地,作者在计算 softmax 交叉熵之前做了一个 Logit Normalization 操作,鼓励 Logit 向量的方向与它的 one-hot 标签一致,但是不优化 Logit 的大小(限定为一个常数)。特别地,理想情况希望 Logit 向量优化为一个常数大小的单位向量。LogitNorm 交叉熵的数学形式如下:

465134aacaaf556b81b726d9aba62041.png

上述式子可等价为:

55bedf271205a354fb7367de47d34ab7.png

▲ 温度系数用来调控Logit大小

这样一来网络优化的其实是一个单位向量。这能让模型得到相对保守的预测。

a999cb8d01d62f01ff3da4e44e8538b6.png

▲ 可见传统交叉熵做IND预训练,得到得到概率值都比较高,而LogitNorm可以得到相对平滑的概率分布

29925ca73326562edaa1a6c9f8da547d.png

▲ 棕色是OOD类别,可见LogitNorm可以得到更多有意义的信息用来区分IND和OOD

此外,作者还对这个 LogitNorm 交叉熵的下界进行了分析:

177046945c0afb81dc018a8edaf4d0d7.png

可以看出温度系数越大,损失函数下界也随之升高。较高的损失函数下界不利于优化。实验部分对温度系数进行了讨论。

68c537c1917cc8d553d25f0f7e168d9a.png


实验


3.1 主实验

这里采用最基本的 MSP 分数做 OOD 检测,可以看到 LogitNorm 在不同数据集上提升比较明显。

05f3fab93e125490569caa434788b4e8.png

下图进一步展示了 IND 和 OOD 数据的 softmax 置信度分数分布,可以看出传统交叉熵会导致大多数 OOD 样本被分配一个较高的置信度分数,而 LogitNorm 可以更好地区分 IND 和 OOD。

e0c22bb2b1b7c338e29d9cbded7029c0.png

3.2 比较LogitNorm对不同OOD检测方法的提升

ee380cfad1d00cccca1ddc9b62f5fecc.png

3.3 LogitNorm对不同网络结构适配性

0f73c43c768f89026c600a300a6bca2f.png

b3f5cbec9016407dab7867539a49261c.png


总结

本文提出一个 LogitNorm 交叉熵损失,是对传统交叉熵的改进,主要解决神经网络过拟合和模型矫正问题。虽然实验都是在 OOD 检测任务上做的,但是这个方法应该是具有比较强的通用性的,适用于一些需要知识迁移的任务。本文通过理论推导结合实验分析的方式,逐步引出方法,这个行文思路值得借鉴(最近看了不少这个类型的工作,我比较喜欢这种风格)。

b3b29b96f0210771bd8d4b440c080832.png

更多阅读

50e3af7aece8deab2914531de9308db2.png

5e10df9965cca78e9ecc76dab39649c7.png

d170bf207f1871c643c90b58f28a7932.png

8aa60571752361afc3905677f000e020.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

9d10eefc09957f2433df163f2df4e7b6.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

8b63c8258421407672f6ca45f18e78d2.jpeg

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐