大模型系列八：什么是自注意力（what is self-attention）,大模型入门到精通，收藏这篇就足够了！

自注意力（Self-Attention）是Transformer模型中一种让模型自动捕捉同一序列内部元素之间关系的机制。

人工智能小豪

1049人浏览 · 2025-09-29 09:45:00

人工智能小豪 · 2025-09-29 09:45:00 发布

一、什么是自注意力

自注意力（Self-Attention）是Transformer模型中一种让模型自动捕捉同一序列内部元素之间关系的机制。它的核心思想是：每个元素都可以“关注”序列中的其他元素，并根据相关性动态调整自身的信息。它通过允许一个序列中的每个位置与同一个序列中的其他所有位置进行交互并权衡其重要性。

二、举一个直观例子

一个示例的句子：“他虽然很累，但还是完成了作业，因为它很重要。”

那么问题来了：句中的“它”指代什么？人类会立刻明白“它”指“作业”，但模型需要通过自注意力的学习才能理解这种关联。

那么针对这个例子，自注意力如何工作的呢？

自注意力工作的核心步骤如下（逐单词的计算每个词与另一个词的相关性。这里的例子只是展示“它”这一个词与其他词的计算过程，其他词的计算过程类似的。）：

自注意力机制的核心目标就是为每个输入元素计算一个上下文向量，该上下文向量是一个包含了输入词序列中所有元素信息的嵌入信息。其主要有三个计算步骤：

1.将词汇矢量化后，将每个为每个词生成三种向量（拆分后的向量降了一个维度）：

2.计算单词之间相关性：

3.加权聚合信息得出上下文向量。

三、自注意力的数学表达（简化版）

四、与传统注意力的区别与联系

自注意力机制通过单序列内部元素间的全局交互捕捉上下文依赖，而传统注意力机制专注于跨序列（如源序列与目标序列）的动态对齐。

五、如何实现自注意力

import torch
#示例语句
sentence="他虽然很累，但还是完成了作业，因为它很重要。"
#仅生成一个3维的向量做示例
matrixs = torch.rand(len(sentence), 3)  # 3行12列
print("均匀分布矩阵：\n", matrixs)
#获取“它”的向量
m_it=matrixs[len(sentence)-5]
#设置Query、Key、Value的矩阵维度
d_in=matrixs.shape[1]
d_out=2
#设置一个随机的初始化变量。
torch.manual_seed(123)
W_query=torch.nn.Parameter(torch.rand(d_in,d_out),requires_grad=False)
W_key=torch.nn.Parameter(torch.rand(d_in,d_out),requires_grad=False)
W_value=torch.nn.Parameter(torch.rand(d_in,d_out),requires_grad=False)
print(W_query)
print(W_key)
print(W_value)
#获取“它”的query、key、value向量
query_it=m_it @ W_query
key_it=m_it @ W_key
value_it=m_it @ W_value
print(query_it)
print(key_it)
print(value_it)
#获取“它”的【注意力得分】
attn_score_it= query_it.dot(key_it)
print(attn_score_it)
#获取所有词的key和value
keys=matrixs @ W_key
values=matrixs @ W_value
print(keys)
print(values)
#计算“它”的【注意力得分】
attn_scores=query_it @ keys.T
print(attn_scores)
#计算“它”的【注意力权重】。【注意力权重】是通过对【注意力得分】进行归一化处理，主要采用softmax方法执行归一。
d_k=keys.shape[-1]
print(d_k)
atten_weights=torch.softmax(attn_scores / d_k ** 0.5,dim=-1)
print(atten_weights)
#计算“它”的【上下文向量】
contexts = atten_weights @ values
print(contexts)