logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Transformer 中self-attention以及mask操作的原理以及代码解析

笔者最近在梳理自然语言与训练模型的有关内容。在看到Bert的时候,突然发现Bert之后的预训练模型都与Transformer结构有关。该结构的一个为人所知的重点是self-attention,但是其另外一个重点mask操作却被人了解的很少,笔者借鉴了其他博主的优质内容,加上自己的理解整理了一下,希望从原理以及代码的角度来学习一下这两个知识点。**self-attention**Self-a...

Transformer 中self-attention以及mask操作的原理以及代码解析

笔者最近在梳理自然语言与训练模型的有关内容。在看到Bert的时候,突然发现Bert之后的预训练模型都与Transformer结构有关。该结构的一个为人所知的重点是self-attention,但是其另外一个重点mask操作却被人了解的很少,笔者借鉴了其他博主的优质内容,加上自己的理解整理了一下,希望从原理以及代码的角度来学习一下这两个知识点。**self-attention**Self-a...

到底了