2601_95203338 个人主页

@2601_95203338

2601_95203338

2026-02-26 16:15:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

《用“小明在喝水”32步学习Transformer大模型》【10 篇连载第四篇】

同时，8头×64维的切分设计（8×64=512）在保证总特征维度不变、信息无丢失的前提下，将大矩阵运算拆解为多个小矩阵并行运算，大幅提升了计算效率，适配大规模并行计算的工程需求。多头切分的唯一输入为上一环节生成的Q、K、V三元组矩阵，以“小明在喝水”3个Token的输入为例，该三元组具备标准化工程属性：三者均为3×512浮点型矩阵，行维度3对应序列长度，列维度512为综合特征维度；如何通过矩阵

#学习 #transformer #深度学习

《用“小明在喝水”32步学习Transformer学习大模型》【10 篇连载第三篇】

Q（查询矩阵）、K（键矩阵）、V（值矩阵）的生成核心，是对输入矩阵X进行三次独立的线性变换（矩阵乘法），每一次变换对应一个预先训练的可学习权重矩阵，三次运算。当Q、K、V三矩阵成功写入内存并完成专属标记后，Encoder的Q/K/V生成阶段正式结束，下一步将进入多头切分环节，对三个矩阵的特征维度进行拆分，为单头注意力计算做准备。简言之，自注意力机制的核心，就是通过Q与K的相似度匹配计算Token间

#学习 #transformer #深度学习

到底了