
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
BERT, GPT, Transformer之间的关系
想象你是一个翻译员,要把一句话从中文翻译成英文。你需要同时看句子里的每个词,理解它们之间的关系。就像一个超级翻译助手,它用“自注意力机制”(Attention)一次处理所有词,快速找出重要联系,比老式的翻译机(RNN)更快更聪明。Transformer 是 2017 年由 Vaswani 等人提出的神经网络架构(论文:《Attention is All You Need》),主要用于自然语言处理(
non-autoregressive sequence generation
Autoregressive(自回归):每一个输出依赖于前一个输出每一步的生成依赖前一个 token:$y_t \sim P(y_t | y_1, y_2, ..., y_{t-1})$无法并行解码,推理慢示例:Transformer、GPT并行生成,加速显著适合实时任务,如翻译、语音识别序列生成是指根据输入条件 x,生成输出序列 y = (y₁, y₂, ..., yₜ)。机器翻译:将一种语言翻
到底了







