
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
什么是RLHF,为什么DeepSeek使用RLHF——白话AI
最近DeepSeek爆火,其训练的过程也引起了大家的广泛关注,特别是其中的RLHF过程,本文旨在用通俗易懂的语言,介绍一下什么是RLHF,其与传统的RL(强化学习)的区别什么,以及DeepSeek的RLHF有什么特别之处。

语言模型的发展历程——DataWhale 大语言模型Task01
语言模型(Language Model)通常是指能够建模自然语言文本生成概率的模型。该篇文章简要介绍了统计语言模型,神经语言模型,预训练语言模型和大语言模型。

大模型技术基础-DataWhale 大语言模型Task02
在大模型如此火爆的当下,快来了解大模型的技术基础吧,本篇文章力求让技术小白都可以看懂。此外本文章的内容中国人民大学高瓴人工智能学院赵鑫教授团队出品的《大语言模型》图书。

什么是RLHF,为什么DeepSeek使用RLHF——白话AI
最近DeepSeek爆火,其训练的过程也引起了大家的广泛关注,特别是其中的RLHF过程,本文旨在用通俗易懂的语言,介绍一下什么是RLHF,其与传统的RL(强化学习)的区别什么,以及DeepSeek的RLHF有什么特别之处。

到底了







