logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

RoPE:大模型标配位置编码,用中学几何讲明白旋转位置编码

我们之前的位置编码方式为在旧的向量上加一个位置向量,从而形成携带了位置信息的新向量,但这种方式污染了原向量的语义,在最终的向量中无法推出原向量内容是什么、位置向量是什么。接下来我我们假设向量“我”是q,向量“你”是k,加上位置编码后的“我”是q',“你”是k'(假设q的位置是m,k的位置是n),那么这两个向量做点积就是。还有一个问题就是,如果一个句子很长,超过一定的值,会导致某一个位置是需要旋转3

#python#算法#人工智能
到底了