
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
大模型微调——三阶段全流程训练分享(小白友好)
2. 自制数据集——使用Ollama本地部署的DeepSeek-R1-32B-Distill和DeepSeek-V3.2(deepseek-chat)API以及专利和文献文本资料制作得到。3)为了提高数据利用效率,根据训练模型时设置的cut_off_length(例如为32768)将长文本截断为多条数据,例如一个长文本的总长度为327680,则将该长文本截断为10条数据,总共得到1200条数据,每
结合大语言模型理解强化学习基本概念
摘要:本文通过大语言模型(LLM)训练场景阐释强化学习核心概念。LLM作为智能体,通过生成token与环境(人类偏好标注)交互,获得即时奖励(偏好评分)并调整策略(token概率分布)。关键要素包括:状态(prompt+已生成文本)、动作(生成特定token)、策略(token选择概率)、奖励(人类评分)和回报(累积奖励)。整个过程符合马尔可夫决策过程框架,目标是优化策略使生成内容长期符合人类偏好
到底了







