LuckyAnJo 个人主页

@2501_90713548

LuckyAnJo

2025-02-25 19:48:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

PPO to GRPO - 1

考虑一个网格迷宫游戏，智能体（Agent）初始位于网格中的一个随机位置，可以执行上下左右的移动动作。网格中存在障碍物、宝藏以及陷阱。智能体的目标是通过探索网格，获得最大得分。PPO（Proximal Policy Optimization）算法通过限制策略更新幅度，提供了一种更加稳定和高效的强化学习方法。在网格迷宫游戏中，智能体可以利用PPO算法平衡探索和利用，从而逐步学习到优化的行动策略。通过结

#人工智能 #神经网络

DPO vs PPO

DPO（Direct Preference Optimization）是一种基于人类反馈（Human Feedback, HF）直接优化大语言模型策略的强化学习方法。与传统的强化学习方法不同，DPO并不依赖于复杂的奖励函数，而是通过人类对模型输出的偏好评分，直接对模型进行微调。具体来说，DPO的核心目标是通过对比多个候选答案或策略，并基于人类的偏好反馈来优化生成模型。这一方法的优势在于，能够更直观

#人工智能 #机器学习 #深度学习 +2

Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战

内容参考至与。

#python #自然语言处理 #人工智能

PPO to GRPO-3

GRPO（Group Relative Policy Optimization）是PPO算法在大模型时代由DeepSeek提出的革新版本，专门针对语言模型、代码生成等离散动作空间的强化学习场景优化。其核心突破在于，通过实现更稳定的策略更新。

#算法 #人工智能

到底了