GPT模型训练实践（1）-基础概念

GPT 模型是 Generative Pretrained Transformers 的缩写，是一种先进的深度学习模型，旨在生成类人文本。生成模型是用于生成新数据的统计模型。这些模型可以学习数据集中变量之间的关系，以生成与原始数据集中相似的新数据点。这些模型已经使用大型数据集进行了预训练，可以在难以训练新模型时使用。尽管预训练模型可能并不完美，但它可以节省时间并提高性能。Transformer 模

云上笛暮

1894人浏览 · 2023-07-01 12:36:07

云上笛暮 · 2023-07-01 12:36:07 发布

GPT 是 Generative Pre-trained Transformers 的缩写，一种先进的深度学习模型，旨在生成类人文本。GPT 的三个组成部分Generative、Pre-trained 和 Transformer，其解释如下：

Generative生成：生成模型是用于生成新数据的统计模型。这些模型可以学习数据集中变量之间的关系，以生成与原始数据集中相似的新数据点。

Pre-trained预训练：这些模型已经使用大型数据集进行了预训练，可以在难以训练新模型时使用。尽管预训练模型可能并不完美，但它可以节省时间并提高性能。

Transformer-转换器（绰号变形金刚）： Transformer 模型是 2017 年创建的人工神经网络，是最著名的能够处理文本等序列数据的深度学习模型。机器翻译和文本分类等许多任务都是使用 Transformer 模型执行的。

这些模型由 OpenAI 开发，已经经历了多次迭代：GPT-1、GPT-2、GPT-3 以及最近的 GPT-4。GPT-4在2023年3月发布，参数量已经上万亿。

        GPT-1 于 2018 年推出，是该系列中的第一个，使用独特的 Transformer 架构来大幅提高语言生成能力。它由 1.17 亿个参数构建，并在 Common Crawl 和 BookCorpus 的混合数据集上进行训练。GPT-1 可以在给定上下文的情况下生成流畅且连贯的语言。然而，它也有局限性，包括重复文本的倾向以及复杂对话和长期依赖性的困难。

        OpenAI 随后于 2019 年发布了 GPT-2。该模型规模更大，拥有 15 亿个参数，并在更大、更多样化的数据集上进行训练。它的主要优势是能够生成真实的文本序列和类似人类的响应。然而，GPT-2 在维持较长段落的上下文和连贯性方面遇到了困难。



        2020 年 GPT-3 的推出标志着一个巨大的飞跃。GPT-3 拥有惊人的 1750 亿个参数，在海量数据集上进行了训练，可以在各种任务中生成细致入微的响应。它可以生成文本、编写代码、创作艺术等等，使其成为聊天机器人和语言翻译等许多应用程序的宝贵工具。然而，GPT-3 并不完美，并且存在一定的偏见和不准确之处。

        继GPT-3之后，OpenAI推出了升级版本GPT-3.5，并最终于2023年3月发布了GPT-4。GPT-4是OpenAI最新、最先进的多模态语言模型。它可以生成更准确的语句并处理图像作为输入，从而可以进行说明、分类和分析。GPT-4 还展示了创作能力，例如创作歌曲或编写剧本。它有两种变体，其上下文窗口大小不同：gpt-4-8K 和 gpt-4-32K。

        GPT-4 能够理解复杂的提示并在各种任务中展示类似人类的表现，这是一个重大的飞跃。然而，与所有强大的工具一样，人们对潜在的滥用和道德影响存在合理的担忧。在探索 GPT 模型的功能和应用时，牢记这些因素至关重要。

GPT中，Transformer至关重要，下图为Transformer的发展过程。

本文参考：

1、合集·GPT模型详细解释

2、HOW TO BUILD A GPT MODEL?

3、What Is a Transformer Model?

4、封面：Premium AI Image | A woman with a blue face and a futuristic look Artificial intelligence Ai High Tech Chat GPT

尤其感谢B站UP主三明2046，其作品《合集GPT模型详细解释》生动精彩，本系列文章充分吸收学习了该课程，并且在文章图片素材多有引用；How to build a GPT model

本文代码部分主要引用How to build a GPT model；

如有侵权，请联系笔者删除，感谢，致敬！

广州城市开发者社区

欢迎加入我们的广州开发者社区，与优秀的开发者共同成长！

更多推荐

基于Python+SSM的新闻个性化采集推荐系统

广州城市开发者社区

【前沿模型解析】一致性模型CM 1 | 离散时间模型到连续时间模型数学推导

广州城市开发者社区

Llama3-Tutorial之LMDeploy高效部署Llama3实践

模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、KV Cache占用的显存，以及中间运算结果占用的显存。LMDeploy的KV Cache管理器可以通过设置--cache-max-entry-count参数，控制KV缓存占用剩余显存的最大比例。默认的比例为0.8。下面通过几个例子，来看一下调整--cache-max-entry-count参数的效果。Llama 3 近期重磅发布，