logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek在transformer中做了哪些优化?-多头潜在注意力

在自注意力机制中,输入序列的每个元素首先被映射到三个向量:查询(Q)、键(K)和值(V)。在自注意力中,每个元素都会有一个对应的键向量,它与查询向量一起决定了注意力分数。在自注意力(Self-Attention)机制中,查询(Query,简称Q)、键(Key,简称K)和值(Value,简称V)是三个核心的概念,它们共同参与计算以生成序列的加权表示。在自注意力机制中,每个元素都会生成一个对应的查询向

#transformer#深度学习#人工智能
到底了