周贵超个人主页

@kkx2002

周贵超

2023-02-21 20:57:18 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

llama-factory qwen3 微调以及数据的一个错误

其中chat gpt 给我胡诌了一份dataset_info.json 如下，会导致无法加载数据集。其余参数默认就可以训练了，训练后记得加载lora，就可以进行对话了。写一个dataset_info.json，放在一起。预览数据集（lora 检查点路径为空即可。准备原huanhuan.json数据集。其中对话提示词模版选择 alpaca。启动llama factory。

#人工智能

DPO PPO GRPO RLHF 的区别

PPO 要估 Advantage，需要价值函数（critic）；步骤：直接在（prompt, preferred, dispreferred）三元组上最小化上式即可。适合需要采样多条长解链的“深度推理”场景（DeepSeekMath、DeepSeek-R1）。介于 DPO 和 PPO 之间：保留在线改进，但通过“组相对评分”省掉 critic，当 Advantage，直接做 PPO-Clip 更新

#人工智能

到底了