
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
《Training language models to follow instructions with human feedback》论文阅读笔记
本文对OpenAI团队于2022年发表的论文《Training language models to follow instructions with human feedback》进行解析,并记录自己的理解与体会。该论文提出了InstructGPT模型,通过人类反馈强化学习(RLHF)将大型语言模型与用户意图对齐,是语言模型对齐研究领域的重要里程碑。
《Training language models to follow instructions with human feedback》论文阅读笔记
本文对OpenAI团队于2022年发表的论文《Training language models to follow instructions with human feedback》进行解析,并记录自己的理解与体会。该论文提出了InstructGPT模型,通过人类反馈强化学习(RLHF)将大型语言模型与用户意图对齐,是语言模型对齐研究领域的重要里程碑。
MiniMind代码复现实战总结
本实验基于开源项目 MiniMind,在单张 NVIDIA RTX 3090 上,从零开始完整复现了一个参数量仅为 63.91M 的轻量级中文大语言模型。

到底了







