
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
群体相对策略优化(GRPO)算法最初由deepseek团队提出,是近端策略优化(PPO)的一个变体。GRPO 是一种在线学习算法,它通过使用训练过程中已训练模型自身生成的数据进行迭代改进。GRPO 目标背后的逻辑是在确保模型与参考策略保持接近的同时,最大化生成的completion的优势。DeepSeek团队在使用纯强化学习 训练 R1-Zero 时观察到了一个“aha moment”。该模型学会
本文基于B站up主的代码编写,,并说明有关潜在的坑。如果无法打开也可以在文章后面找到源码。该代码使用微调DeepSeek-R1-Distill-Llama-8B,数据集使用, 旨在将模型微调为一个算命大师。数据集格式:{ Question, Response,Complex_CoT } ,因为微调的是一个推理模型,所以包含思维链。微调的大致流程如下。

写完后端项目后,部署到服务器的步骤...

LLaMA-Factory是一个微调框架。

群体相对策略优化(GRPO)算法最初由deepseek团队提出,是近端策略优化(PPO)的一个变体。GRPO 是一种在线学习算法,它通过使用训练过程中已训练模型自身生成的数据进行迭代改进。GRPO 目标背后的逻辑是在确保模型与参考策略保持接近的同时,最大化生成的completion的优势。DeepSeek团队在使用纯强化学习 训练 R1-Zero 时观察到了一个“aha moment”。该模型学会
【代码】调用大模型api,实现基于rag的回复。
然后将md文件上传到easydataset,easydataset会将其拆分成若干个片段,并针对每个片段生成若干个问题,最后再对每个问题进行回答,问答对就完成了。原理是通过将文档片段发送给ollama本地模型,然后本地模型生成有关问题,并基于文档片段回答问题。进入easydataset的运行界面,新建项目,会被要求添加模型。ollama安装就不赘述了,easy-dataset是一个前端项目,只需要

前端每隔一段时间向后端发送一次字符串ping-${uid},后端收到后返回pong响应。

实现了基于本地文档内容的对话问答。
网上其实并没有找到现成的开源越狱数据集,所以数据集获取是个麻烦事。想了想easydataset,可能还是不行,easydataset是基于大模型回答的,大模型一般都做了对齐训练,那本地文档生成数据这条路也不可靠。该仓库里分享了大量越狱实验的问答记录,针对不同模型,不同越狱攻击方式,不同越狱问题类型都有记录,而且有标记那些记录是越狱成功那些越狱失败(通过jailbroken字段)英语的越狱似乎还不错








