logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Linear Attention续集

本文介绍了LinearAttention训练中的Memory-efficient和Hardware-efficient方法,文章仅供学习参考,禁止商用盗用,转载注明出处。

#人工智能#机器学习
RoPE续集

本文在《大模型学习记录2——RoPE》基础上,将RoPE位置编码推广至3D形式并提出新思考方向(待验证),同时探讨多模态大模型中的位置编码技术。文章仅供学习参考,禁止商用盗用,引用需注明出处。

#学习
傅里叶位置编码FoPE

本文介绍了一种傅里叶位置编码方法FoPE,基于对RoPE的频谱分析发现问题:线性层和激活函数分别造成频谱泄露和失真,时域截断导致频率扩散,这些频谱损伤影响了RoPE的周期性扩展能力。针对这些问题,论文作者提出用傅里叶级数进行多频率建模,并对训练不足的低频分量置零处理时域截断问题,最终形成了FoPE方法。(仅供学习参考,禁止商用盗用)

到底了