logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Transformer+BERT论文学习

目前主流的序列转换模型基于复杂的循环或卷积神经网络,这些模型包括编码器和解码器。表现最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer,它完全基于注意力机制,完全摒弃了循环和卷积。在两个机器翻译任务的实验中,这些模型不仅质量更高,而且更易于并行化,训练时间也显著减少。我们的模型在WMT 2014英德翻译任务上取得了28.4的BLEU分数,比现有最

#transformer#bert#学习
到底了