
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
llama-factory qwen3 微调 以及数据的一个错误
其中chat gpt 给我胡诌了一份dataset_info.json 如下,会导致无法加载数据集。其余参数默认就可以训练了,训练后记得加载lora,就可以进行对话了。写一个dataset_info.json,放在一起。预览数据集(lora 检查点路径为空即可。准备原huanhuan.json数据集。其中对话提示词模版选择 alpaca。启动llama factory。
DPO PPO GRPO RLHF 的区别
PPO 要估 Advantage,需要价值函数(critic);步骤:直接在(prompt, preferred, dispreferred)三元组上最小化上式即可。适合需要采样多条长解链的“深度推理”场景(DeepSeekMath、DeepSeek-R1)。介于 DPO 和 PPO 之间:保留在线改进,但通过“组相对评分”省掉 critic,当 Advantage,直接做 PPO-Clip 更新
到底了







