Stella_Conch 个人主页

@Stella_Conch

Stella_Conch

2023-10-16 23:38:00 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek_R1技术报告超细致中文详解

仅使用强化学习(RL)激励推理能力，而不使用有监督的人工微调(SFT)→ 推理强，但存在可读性差、语言混淆的问题。则在RL之前加入了**多阶段训练（RL + 拒绝采样 + SFT）**和少量的冷启动数据最终效果可以达到OpenAI-o1-1217的推理效果。、基于Qwen2.5和Llama3从DeepSeek_R1 蒸馏 distillation出来的六个密度的模型**（1.5B, 7B, 8B,

#人工智能 #nlp

SWiRL (Step-Wise Reinforcement Learning)论文笔记

Step-Wise Reinforcement Learning (SWiRL)——一种离线多步优化技术通过合成数据生成和多步强化学习提升语言模型在复杂推理和工具使用任务中的能力离线训练：通过合成数据实现高效、可重复的优化，避免在线工具调用带来的延迟。多步轨迹生成：通过LLM（如开源Gemma 2）与工具（如搜索引擎/计算器）交互，自动生成多步推理轨迹 trajectory（包含中间步骤的工具调用

#论文阅读 #nlp #人工智能 +1

DeepSeek_R1技术报告超细致中文详解

#人工智能 #nlp

到底了