logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于GRPO将QWEN训练为和deepseek一样的推理模型!

群体相对策略优化(GRPO)算法最初由deepseek团队提出,是近端策略优化(PPO)的一个变体。GRPO 是一种在线学习算法,它通过使用训练过程中已训练模型自身生成的数据进行迭代改进。GRPO 目标背后的逻辑是在确保模型与参考策略保持接近的同时,最大化生成的completion的优势。DeepSeek团队在使用纯强化学习 训练 R1-Zero 时观察到了一个“aha moment”。该模型学会

#服务器#前端#运维
基于unsloth微调大模型并上传到huggingface

本文基于B站up主的代码编写,,并说明有关潜在的坑。如果无法打开也可以在文章后面找到源码。该代码使用微调DeepSeek-R1-Distill-Llama-8B,数据集使用, 旨在将模型微调为一个算命大师。数据集格式:{ Question, Response,Complex_CoT } ,因为微调的是一个推理模型,所以包含思维链。微调的大致流程如下。

文章图片
#pytorch#深度学习#人工智能
后端部署服务器操作指南

写完后端项目后,部署到服务器的步骤...

文章图片
#服务器#运维
LLaMA-Factory从安装到微调再导出全流程

LLaMA-Factory是一个微调框架。

文章图片
基于GRPO将QWEN训练为和deepseek一样的推理模型!

群体相对策略优化(GRPO)算法最初由deepseek团队提出,是近端策略优化(PPO)的一个变体。GRPO 是一种在线学习算法,它通过使用训练过程中已训练模型自身生成的数据进行迭代改进。GRPO 目标背后的逻辑是在确保模型与参考策略保持接近的同时,最大化生成的completion的优势。DeepSeek团队在使用纯强化学习 训练 R1-Zero 时观察到了一个“aha moment”。该模型学会

#服务器#前端#运维
调用大模型api,实现基于rag的回复

【代码】调用大模型api,实现基于rag的回复。

#AI
大模型微调数据集怎么搞?基于easydataset实现文档转换问答对json数据集!

然后将md文件上传到easydataset,easydataset会将其拆分成若干个片段,并针对每个片段生成若干个问题,最后再对每个问题进行回答,问答对就完成了。原理是通过将文档片段发送给ollama本地模型,然后本地模型生成有关问题,并基于文档片段回答问题。进入easydataset的运行界面,新建项目,会被要求添加模型。ollama安装就不赘述了,easy-dataset是一个前端项目,只需要

文章图片
SpringBoot与Vue实现WebSocket心跳机制

前端每隔一段时间向后端发送一次字符串ping-${uid},后端收到后返回pong响应。

文章图片
#java#spring#spring boot
基于ollama与ragflow实现本地知识库

实现了基于本地文档内容的对话问答。

基于unsloth微调一个越狱大模型

网上其实并没有找到现成的开源越狱数据集,所以数据集获取是个麻烦事。想了想easydataset,可能还是不行,easydataset是基于大模型回答的,大模型一般都做了对齐训练,那本地文档生成数据这条路也不可靠。该仓库里分享了大量越狱实验的问答记录,针对不同模型,不同越狱攻击方式,不同越狱问题类型都有记录,而且有标记那些记录是越狱成功那些越狱失败(通过jailbroken字段)英语的越狱似乎还不错

文章图片
#人工智能
    共 16 条
  • 1
  • 2
  • 请选择