logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型训练_week2_day11_《穷途末路》

碎碎念:976目标:本节手撕attention。做到能够默写以及默写标注# Transformer伪代码x = x +# 残差连接x = layer_norm(x)# 层归一化x = x + feed_forward(x)# 残差连接x = layer_norm(x)# 层归一化残差连接会让不同层的特征直接相加,若特征分布差异大,相加后数值会失真;LayerNorm 先归一化特征,让残差连接的数值

文章图片
#深度学习#神经网络#pytorch +1
大模型训练_week2_day8&day9_《穷途末路》

碎碎念:万般皆是命,半点不由人。本文主要是为了明确大模型学习路线,从JD的要求出发先了解一些基础概念,由浅入深,结合相关项目训练。主要矛盾就是这个岗位我需要会什么,项目那么多哪一个最相关?明确后再出发。目标:掌握分词embedding,encoder、 encoder+decoder、decoder结构,注意力掌握Q/K/V 矩阵乘法,softmax操作和意义,彻底理解attention矩阵,线性

文章图片
#人工智能#神经网络#深度学习 +1
到底了