logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【多模态大模型】LLaMA in arXiv 2023

LLaMA:该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。

文章图片
【深度学习】位置编码

Transformer、DETR、Swin Transformer中的位置编码

文章图片
#深度学习#人工智能#transformer
到底了