logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型微调知识与实践分享

Attention Is All You Need》是一篇 Google 提出的将 Attention 思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 Transformer,抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。可以看到 Encoder 包含一个 Muti-Head Attention 模块,是由多个 Self-Attention 组成,而 Decoder 包含两个 M

#pygame
到底了