
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Transformer
Transformer架构汇报提纲 一、引言:为什么是Transformer? 背景与动机 传统序列模型(如RNN, LSTM, GRU)的瓶颈:串行计算导致训练速度慢,难以并行化;长距离依赖捕捉能力有限。 Transformer的诞生:2017年Google团队的论文《Attention Is All You Need》。 核心思想:完全基于注意力机制(Attention Mechanism)
到底了







