beginner_GFL1207 个人主页

beginner_GFL1207

2023-04-22 16:26:51 加入 DevPress

简介

该用户还未填写简介

未填写擅长的技术栈

暂无可提供的服务

LLaMA：该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。

Transformer、DETR、Swin Transformer中的位置编码

到底了