
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
掩码多头注意力机制 (Masked MHA)
在介绍掩码多头注意力机制之前我先介绍一下多头注意力机制具体可以见我之前的笔记掩码多头注意力机制就是在多头注意力机制的基础上加上了“可见性限制”——通常是因果掩码,禁止当前位置看到“未来”位置,确保自回归生成不泄露信息。
到底了

该用户还未填写简介
暂无可提供的服务
在介绍掩码多头注意力机制之前我先介绍一下多头注意力机制具体可以见我之前的笔记掩码多头注意力机制就是在多头注意力机制的基础上加上了“可见性限制”——通常是因果掩码,禁止当前位置看到“未来”位置,确保自回归生成不泄露信息。