南京天涯个人主页

@yeziyezi210

南京天涯

2023-01-04 16:56:58 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Transformer 中self-attention以及mask操作的原理以及代码解析

笔者最近在梳理自然语言与训练模型的有关内容。在看到Bert的时候，突然发现Bert之后的预训练模型都与Transformer结构有关。该结构的一个为人所知的重点是self-attention，但是其另外一个重点mask操作却被人了解的很少，笔者借鉴了其他博主的优质内容，加上自己的理解整理了一下，希望从原理以及代码的角度来学习一下这两个知识点。**self-attention**Self-a...

Transformer 中self-attention以及mask操作的原理以及代码解析

到底了