简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
【多模态大模型】LLaMA in arXiv 2023
LLaMA:该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。
【深度学习】位置编码
Transformer、DETR、Swin Transformer中的位置编码
到底了