logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型学习-基础篇(六):LoRA的版本改进

总的来说,LoRA改进的方向主要还是逼近全量微调的结果去努力,无论从权重初始化,梯度下降策略,模型层更新策略等角度出发,本质上都是让新的权重更新趋势拟合全量微调的过程。

文章图片
#深度学习#语言模型#人工智能
大模型学习-实践篇(一):简单尝试

大模型学习-基础篇大模型学习-实践篇大模型学习-理论篇大模型学习-踩坑篇大模型学习-面试篇本地部署LLMs运行环境,能够完成大模型的推理、训练、量化的部署。我是在服务器上进行部署的,相关配置如下:服务器系统:CentOS 7.7存储:约40T显卡:A800 * 2(单卡显存 80 GB)网络:校园网虚拟环境:docker + minicondamodelscope提供了部署所需的全部详细文档,这里

文章图片
#人工智能#语言模型
大模型学习-基础篇(六):LoRA的版本改进

总的来说,LoRA改进的方向主要还是逼近全量微调的结果去努力,无论从权重初始化,梯度下降策略,模型层更新策略等角度出发,本质上都是让新的权重更新趋势拟合全量微调的过程。

文章图片
#深度学习#语言模型#人工智能
大模型学习-基础篇(二)RoPE旋转位置编码

fqmcosmθ−sinmθsinmθcosmθq0q1fqmcosmθsinmθ​−sinmθcosmθ​q0​q1​​以及三个关键的理解:1.不同位置,转角不一样。转角差包含了相对位置信息。2.维度:分成高频和低频高频:短距离低频:长距离3.高频外推性强,低频插值能力强。b站上有相关的介绍视频,可以参考观看,老师讲的很好。

文章图片
#学习
大模型学习-基础篇(一):Attention复杂度计算和PE介绍

此系列记录大模型学习的经验总结,包括且不限于:LLM相关的知识、理论、论文、部署、微调、量化等,提示:以下是本篇文章正文内容,下面案例可供参考此章节介绍了Transformers库的结构和相关模块。

文章图片
#人工智能#自然语言处理#语言模型
大模型学习-基础篇(七)KV cache 简单了解

关于KV cache的改进,也许能决定大模型api应用价格是否白菜化。目前deepseek声称能做到1元/1B Tokens,笔者之前做过一些数据集的自动标注工作,大概2万条数据集,句子平均50个tokens,感觉数据量加起来也刚好到1B的Tokens。如果以1元/1B Tokens的价格,标注100万条数据也才50元,期待未来吧。

文章图片
#人工智能#自然语言处理#语言模型 +1
大模型学习-基础篇(六):LoRA的版本改进

总的来说,LoRA改进的方向主要还是逼近全量微调的结果去努力,无论从权重初始化,梯度下降策略,模型层更新策略等角度出发,本质上都是让新的权重更新趋势拟合全量微调的过程。

文章图片
#深度学习#语言模型#人工智能
大模型学习-基础篇(一):Attention复杂度计算和PE介绍

此系列记录大模型学习的经验总结,包括且不限于:LLM相关的知识、理论、论文、部署、微调、量化等,提示:以下是本篇文章正文内容,下面案例可供参考此章节介绍了Transformers库的结构和相关模块。

文章图片
#人工智能#自然语言处理#语言模型
大模型学习-基础篇(六):LoRA的版本改进

总的来说,LoRA改进的方向主要还是逼近全量微调的结果去努力,无论从权重初始化,梯度下降策略,模型层更新策略等角度出发,本质上都是让新的权重更新趋势拟合全量微调的过程。

文章图片
#深度学习#语言模型#人工智能
大模型学习-基础篇(七)KV cache 简单了解

关于KV cache的改进,也许能决定大模型api应用价格是否白菜化。目前deepseek声称能做到1元/1B Tokens,笔者之前做过一些数据集的自动标注工作,大概2万条数据集,句子平均50个tokens,感觉数据量加起来也刚好到1B的Tokens。如果以1元/1B Tokens的价格,标注100万条数据也才50元,期待未来吧。

文章图片
#人工智能#自然语言处理#语言模型 +1
    共 14 条
  • 1
  • 2
  • 请选择