
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
从零开始训练一个大模型
自从大模型LLM问世以来,我就对其特别好奇,拜读过Attention Is All You Need论文,也从工程角度上去分析(靠自己的理解其中的原理),但常看常新,就比如QQQ、KKK、VVV这三个数值,每次看都会有一些不一样的理解,从最初的感到新奇,慢慢的理解这是核心中的核心。为什么LLM会有记忆,就是因为注意力的出现,让最后一个词向量也能找到最开始的那个词向量。那么LLM中智能的涌现则很有可
入门pytorch-Transformer
虽然是2017年由Google推出,如果按照的思路看,那它无疑是过时的,但可惜的是,目前很多论文的核心依然是,或者由其进行改进的,故本文使用pytorch来搭建一下这个模型。

到底了







