nancylld 个人主页

@qq_45015386

nancylld

2025-03-18 17:08:32 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek在transformer中做了哪些优化？-多头潜在注意力

在自注意力机制中，输入序列的每个元素首先被映射到三个向量：查询（Q）、键（K）和值（V）。在自注意力中，每个元素都会有一个对应的键向量，它与查询向量一起决定了注意力分数。在自注意力（Self-Attention）机制中，查询（Query，简称Q）、键（Key，简称K）和值（Value，简称V）是三个核心的概念，它们共同参与计算以生成序列的加权表示。在自注意力机制中，每个元素都会生成一个对应的查询向

#transformer #深度学习 #人工智能

到底了