寻寻寻寻个人主页

@SDU_st

寻寻寻寻

2024-07-23 23:57:33 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

从专业角度理解Transformer

Transformer 由 Vaswani 等人在 2017 年《Attention Is All You Need》中提出，核心是完全基于自注意力机制（Self-Attention），替代传统 RNN/CNN 的序列建模方式，解决其长距离依赖建模能力弱、并行计算效率低的痛点。核心优势：并行计算（摆脱序列依赖）、长距离依赖建模（注意力机制直接建模全局关联）、可扩展性强（适配不同长度序列、易迁移至N

#transformer #深度学习 #人工智能

【自用】知识点梳理

Wx + b → 全连接层（Linear）exp / sum → Softmax（多分类概率）1/(1+e^-x) → Sigmoid（二分类）Conv2d → 图像卷积LayerNorm → Transformer 大模型必备Multi-Head Attention → 大模型核心Embedding → 词向量。

#transformer #深度学习 #人工智能

到底了