注意力机制中的qkv

从计算机视觉的角度解释注意力机制中的qkv的具体概念。

文章共1,727字 · 阅读需要大约6分钟

一键AI生成摘要，助你高效阅读

问答

叫我明明就行

3794人浏览 · 2024-01-09 16:26:55

叫我明明就行 · 2024-01-09 16:26:55 发布

qkv就是Query，Key和Value，这个概念很早就有，随着transformer的爆火，在注意力领域该结构可以说是最典型的、最重要的。我接触深度学习是从视觉领域入手的，调研了很多注意力结构，比如SENet等等。注意力领域也有诸多细分，比如通道注意力、空间注意力等。我总结为注意力结构就是生成一个权重，附加到内容上，效果就是只关注某部分内容，忽略其他内容。如果权重由内容本身生成，就是自注意力机制。

transformer论文地址：https://arxiv.org/abs/1706.03762

qk就是我理解的权重，v就是内容。但我总也理解不了Query和Key的区别，尤其是从代码的角度来看这个问题，特征x过一个全联接层得到Query，过另一个全连接层得到Key，让q和k的概念互换一下似乎也没啥问题吧。代码地址：https://github.com/LiamMaclean216/Pytorch-Transfomer/blob/master/utils.py

class Key(torch.nn.Module):
    def __init__(self, dim_input, dim_attn):
        super(Key, self).__init__()
        self.dim_attn = dim_attn
        
        self.fc1 = nn.Linear(dim_input, dim_attn, bias = False)
        #self.fc2 = nn.Linear(5, dim_attn)
    
    def forward(self, x):
        x = self.fc1(x)
        #x = self.fc2(x)
        
        return x

class Query(torch.nn.Module):
    def __init__(self, dim_input, dim_attn):
        super(Query, self).__init__()
        self.dim_attn = dim_attn
        
        self.fc1 = nn.Linear(dim_input, dim_attn, bias = False)
        #self.fc2 = nn.Linear(5, dim_attn)
    
    def forward(self, x):
        
        x = self.fc1(x)
        #print(x.shape)
        #x = self.fc2(x)
        
        return x

然后我们来看看论文，Q和K有怎么计算呢，仅仅就是Q乘以K的转置，然后再softmax，然后除以维度开根，做个简单的归一化。这种级别的计算是一种简单的结构，但是我认为还是很弯弯绕绕的，没有SENet那么简单好理解，我尤其不能理解Q和K，在我看来就算只有一项也能行吧。

transformer最早应用于NLP领域，很多博客解释这个问题从NLP角度出发，我总结理解不了。图像领域也有很多qkv的结构，ViT、Twins等在CV上把QKV用的得心应手。我仍不能理解对于一个图，QKV对应着什么级别的概念。经过最近的调研，我把自己的理解写下来，欢迎大家讨论、纠错。我把某些具体的含义带入到了推理过程，方便描述QKV的抽象概念。

我的理解

我们通过人类区分猫狗时候的QKV，联想模型区分猫狗时候的QKV。

从人类角度区分猫狗的话，我们可以从以下角度做对比：耳朵的弯曲程度、胡子长度与脸长度的比例、嘴巴长度与脸长度的比例、花纹、眼睛、爪子、尾巴。经过我这几年的观察，我发现了以下规律。耳朵上，弯耳大概率是狗（小部分狗是直耳），直耳大概率是猫；胡子上，胡子长度接近脸长的是大概率猫，胡子短的是大概率狗；嘴长上，嘴长接近脸长的大概率是狗，嘴长明显小于脸长的大概率是猫。