
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
transformer(attention is all you need)文章阅读+重点代码理解
2025年开始,准备学习大模型相关的东西,所以从基础知识transformer开始补起。文章思路如下:以论文顺序讲解参考我学习的视频的部分简写了,详情见参考文献(链接)在必要的部分穿插了源码讲解目的:transformer是2017年由Google提出的,用于序列转导任务的模型(例如文本生成,翻译),以解决之前的基于RNN模型做此任务的问题(输入输出层必须等长、遗忘、只能串行运行)借鉴的研究FFN
transformer(attention is all you need)文章阅读+重点代码理解
2025年开始,准备学习大模型相关的东西,所以从基础知识transformer开始补起。文章思路如下:以论文顺序讲解参考我学习的视频的部分简写了,详情见参考文献(链接)在必要的部分穿插了源码讲解目的:transformer是2017年由Google提出的,用于序列转导任务的模型(例如文本生成,翻译),以解决之前的基于RNN模型做此任务的问题(输入输出层必须等长、遗忘、只能串行运行)借鉴的研究FFN
到底了







