logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型微调涉及的8个Python库总结

本文总结了8个高频Python库在LLM微调/对齐/加速/推理环节的关键作用。每个库都配有典型用法和官方文档链接,覆盖了从模型压缩、高效训练到部署优化的全流程。

文章图片
#python#开发语言#人工智能 +2
大模型微调涉及的8个Python库总结

本文总结了8个高频Python库在LLM微调/对齐/加速/推理环节的关键作用。每个库都配有典型用法和官方文档链接,覆盖了从模型压缩、高效训练到部署优化的全流程。

文章图片
#python#开发语言#人工智能 +2
用100条数据微调大模型Llama2-7B源码解析——李宏毅大模型2025作业5

本文介绍了一个使用LoRA微调LLaMA2-7B模型的完整流程。首先进行环境准备与安装,加载预训练模型。然后添加LoRA适配器,将可训练参数从67.78亿降至399.8万(仅0.59%)。模型训练采用SFTTrainer,设置LoRA超参数并进行监督微调。最后进行模型推理评估和权重保存。

文章图片
#transformer#深度学习#人工智能
用100条数据微调大模型Llama2-7B源码解析——李宏毅大模型2025作业5

本文介绍了一个使用LoRA微调LLaMA2-7B模型的完整流程。首先进行环境准备与安装,加载预训练模型。然后添加LoRA适配器,将可训练参数从67.78亿降至399.8万(仅0.59%)。模型训练采用SFTTrainer,设置LoRA超参数并进行监督微调。最后进行模型推理评估和权重保存。

文章图片
#transformer#深度学习#人工智能
大模型微调之 用LoRA微调Llama2(附代码)——李宏毅2025大模型作业5笔记-上

在原始权重矩阵基础上,添加两个低秩矩阵 A 和 B。不再学习尺寸为 d×d 的完整权重更新矩阵 ΔW,而是学习尺寸为 d×r 和 r×d(其中 r≪d,r 为矩阵的秩)的两个更小矩阵。设置参数 r = 4 后,可调整参数变为999万,占总参数的0.15%,说明r越小,需要调整的参数越小。设置参数 r = 16 后,可调整参数变为3998万,占总参数的0.59%设置LoRA前,可以训练的参数为66.

文章图片
大模型微调之 用LoRA微调Llama2(附代码)——李宏毅2025大模型作业5笔记-上

在原始权重矩阵基础上,添加两个低秩矩阵 A 和 B。不再学习尺寸为 d×d 的完整权重更新矩阵 ΔW,而是学习尺寸为 d×r 和 r×d(其中 r≪d,r 为矩阵的秩)的两个更小矩阵。设置参数 r = 4 后,可调整参数变为999万,占总参数的0.15%,说明r越小,需要调整的参数越小。设置参数 r = 16 后,可调整参数变为3998万,占总参数的0.59%设置LoRA前,可以训练的参数为66.

文章图片
pretrain-Alignment范式的强大与极限——李宏毅大模型2025第五讲笔记

当前大语言模型(LLM)训练的三阶段范式已经成熟:1. 预训练(Pre-training)2. 有监督微调 / 指令微调(SFT, Supervised Fine-tuning)3. 人类反馈强化学习(RLHF)其中,第2、3阶段合称为 对齐(Alignment),目标是让模型行为符合人类偏好。

文章图片
#transformer#人工智能#算法
pretrain-Alignment范式的强大与极限——李宏毅大模型2025第五讲笔记

当前大语言模型(LLM)训练的三阶段范式已经成熟:1. 预训练(Pre-training)2. 有监督微调 / 指令微调(SFT, Supervised Fine-tuning)3. 人类反馈强化学习(RLHF)其中,第2、3阶段合称为 对齐(Alignment),目标是让模型行为符合人类偏好。

文章图片
#transformer#人工智能#算法
如何训练一个简单的Transformer模型(附源码)李宏毅2025大模型-作业4

使用2层Transformer的GPT-2模型进行宝可梦图像生成实验(有源码)。实验基于792张20×20像素的宝可梦图像数据集,通过自回归预测完成图像生成(前60%预测后40%)。模型配置为2层Transformer、2个注意力头、64维嵌入,参数量136,384。经过50个epoch训练后,验证集重建准确率达31%,FID得分为96.3425。结果显示模型能生成具有基本形状和颜色分布的宝可梦图

文章图片
#transformer#深度学习#人工智能 +2
大语言模型的“可解释性”探究——李宏毅大模型2025第三讲笔记

摘要:本文系统探讨了大语言模型的可解释性问题,从神经元、网络层到整体模型三个层面展开分析。研究发现:1)单个神经元具有多任务性,通过激活程度可识别其功能;2)网络层中存在可提取的"功能向量"(如拒绝、诚实等),通过SAE方法可解构3400万种功能向量;3)模型思维具有透明性,LogitLens技术显示答案形成过程,PatchScopes则揭示多步推理机制。研究表明大语言模型通过

文章图片
#人工智能#机器学习#语言模型 +1
    共 21 条
  • 1
  • 2
  • 3
  • 请选择