
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Linear Attention续集
本文介绍了LinearAttention训练中的Memory-efficient和Hardware-efficient方法,文章仅供学习参考,禁止商用盗用,转载注明出处。
RoPE续集
本文在《大模型学习记录2——RoPE》基础上,将RoPE位置编码推广至3D形式并提出新思考方向(待验证),同时探讨多模态大模型中的位置编码技术。文章仅供学习参考,禁止商用盗用,引用需注明出处。
傅里叶位置编码FoPE
本文介绍了一种傅里叶位置编码方法FoPE,基于对RoPE的频谱分析发现问题:线性层和激活函数分别造成频谱泄露和失真,时域截断导致频率扩散,这些频谱损伤影响了RoPE的周期性扩展能力。针对这些问题,论文作者提出用傅里叶级数进行多频率建模,并对训练不足的低频分量置零处理时域截断问题,最终形成了FoPE方法。(仅供学习参考,禁止商用盗用)
到底了







