
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
DeepSeek在transformer中做了哪些优化?-多头潜在注意力
在自注意力机制中,输入序列的每个元素首先被映射到三个向量:查询(Q)、键(K)和值(V)。在自注意力中,每个元素都会有一个对应的键向量,它与查询向量一起决定了注意力分数。在自注意力(Self-Attention)机制中,查询(Query,简称Q)、键(Key,简称K)和值(Value,简称V)是三个核心的概念,它们共同参与计算以生成序列的加权表示。在自注意力机制中,每个元素都会生成一个对应的查询向
到底了







