
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
【自用】知识点梳理
Wx + b → 全连接层(Linear)exp / sum → Softmax(多分类概率)1/(1+e^-x) → Sigmoid(二分类)Conv2d → 图像卷积LayerNorm → Transformer 大模型必备Multi-Head Attention → 大模型核心Embedding → 词向量。
【自用】知识点梳理
Wx + b → 全连接层(Linear)exp / sum → Softmax(多分类概率)1/(1+e^-x) → Sigmoid(二分类)Conv2d → 图像卷积LayerNorm → Transformer 大模型必备Multi-Head Attention → 大模型核心Embedding → 词向量。
从专业角度理解Transformer
Transformer 由 Vaswani 等人在 2017 年《Attention Is All You Need》中提出,核心是完全基于自注意力机制(Self-Attention),替代传统 RNN/CNN 的序列建模方式,解决其长距离依赖建模能力弱、并行计算效率低的痛点。核心优势:并行计算(摆脱序列依赖)、长距离依赖建模(注意力机制直接建模全局关联)、可扩展性强(适配不同长度序列、易迁移至N
到底了







