LLM金融大模型微调实战:手把手教你实现A2C、PPO、GRPO和GSPO算法!
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1、基类:RLHFTrainerBase
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
need_old_policy():
子类需实现,决定是否需要 old_model。其中A2C是典型的on-policy
算法,不需要old model。compute_loss()
:子类需实现,具体的 RLHF 算法(PPO、GRPO、DPO 等)会有不同的损失计算方式。
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
- 使用LoRa方法加载模型
- 关于LoRa的讲解和参数量计算,放到下一节展开,这里不涉及
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
- 标准的模型生成
- 输入 prompts,统一生成模型回复。generate() 采用 采样 (do_sample=True, temperature=0.7),增加多样性。
- 返回 生成的 tokens 以及 输入张量。
2、具体算法实现
A2C 是一个on-policy的算法,并且是需要 Critic 网络对Actor进行打分的,具体解释查看上两篇。
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
这里省略了 Critic 网络的细节,可以看到作为传统的on-policy的A2C的loos计算还是非常干净的。PPO 也是是需要 Critic 网络,但是PPO通过引入batch 来提高数据的利用效率,它不是传统意义的off-policy,算是接近on-policy
为了解决引入batch带来的数据偏移问题,提出了重要性采样
ounter(lineounter(line
为了提高训练的稳定性,对目标进行裁剪,然后组合到一起就是我们常见的PPO surrogate objective:
ounter(lineounter(lineounter(line
相比PPO,GRPO 首先去掉了 Critic 网络这个不稳定因素,然后为了生成对演员(Actor)的评分, 使用了组内优势(group-wise Advantage)
ounter(lineounter(lineounter(line
同时GRPO相对于PPO则更加强调文本生成过程中的序列属性而不是动作属性。
GSPO的最大改进则是将之前的重要性比率和裁切进一步提升到了序列维度,主要还是提升训练时的稳定性:
ounter(lineounter(lineounter(lineounter(line
最后因为最近在学triton,就尝试着写了一个加速实现。
AI大模型学习和面试资源
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐
所有评论(0)