logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【自用】知识点梳理

Wx + b → 全连接层(Linear)exp / sum → Softmax(多分类概率)1/(1+e^-x) → Sigmoid(二分类)Conv2d → 图像卷积LayerNorm → Transformer 大模型必备Multi-Head Attention → 大模型核心Embedding → 词向量。

#自然语言处理#人工智能
【自用】知识点梳理

Wx + b → 全连接层(Linear)exp / sum → Softmax(多分类概率)1/(1+e^-x) → Sigmoid(二分类)Conv2d → 图像卷积LayerNorm → Transformer 大模型必备Multi-Head Attention → 大模型核心Embedding → 词向量。

#自然语言处理#人工智能
从专业角度理解Transformer

Transformer 由 Vaswani 等人在 2017 年《Attention Is All You Need》中提出,核心是完全基于自注意力机制(Self-Attention),替代传统 RNN/CNN 的序列建模方式,解决其长距离依赖建模能力弱、并行计算效率低的痛点。核心优势:并行计算(摆脱序列依赖)、长距离依赖建模(注意力机制直接建模全局关联)、可扩展性强(适配不同长度序列、易迁移至N

#transformer#深度学习#人工智能
到底了