ChatGPT背后的男人1

其很大的缺陷是不知道人类的需求是什么，只能从网络中学习，不知道回答问题，就像一个未见过的另一个维度。会有人类告诉它说，有人类问你问题，你不要说我不知道，不要乱写，其本质是以后有人问这个问题，需要将对应答案内容的符号的机率提高一些。增强式学习的概念：对于一个问题，ChatGPT给你两个答案，当其中一个答案好过另一个答案时，这时候，模型需要将比较好的答案提高概率，比较差的答案降低机率。，可以想象为一

Suxn_Aluvfy

667人浏览 · 2025-06-26 22:27:44

Suxn_Aluvfy · 2025-06-26 22:27:44 发布

ChatGPT 3.5

ChatGPT真正在做的事情是文字接龙(语言模型)
- 给每一个可能出现的符号一个机率，然后按照这个机率分布掷色子，掷到哪个符号，就输出哪个符号
- 符号也称为token
- 英文的Token不是单子，因为英文单字无法被求取
- 一个中文单字可以当成一个Token或者多个Token，不同语言模型Token不同
- 每次最后输出的结果不同，回答的结果不同，掷色子是具有随机性的
- 这就是ChatGPT为什么常常错误，常常说胡话，因为它通过文字接龙，根本不在意正确与否
- ChatGPT做文字接龙不是仅仅从问的问题中接龙，而是从所有历史记录中接龙
- 语言模型如何学习文字接龙，就是不断地调整符号的机率
- 语言模型背后是一个巨大的类神经网络Transformer，可以想象为一个函式，里面非常的复杂，里面是一系列的矩阵乘法，并且里面含有数亿个参数，这也更增加了它的复杂性
在ChatGPT之前的GPT系列
- GPT-1：1GB的文字接龙的资料量，117M函式的参数
- GPT2：40GB的文字接龙的资料量，1542M函式的参数。GPT-2也可以回答问题，但表现不够好
- GPT3：580GB的文字接龙的资料量，175B函式的参数，扩大了100倍。会根据指令写程式，其表现也是差强人意。其很大的缺陷是不知道人类的需求是什么，只能从网络中学习，不知道回答问题，就像一个未见过的另一个维度
- 下一个阶段：人类告诉人工智慧说到底我们想要的答案是什么。GPT就继续学习，就成为ChatGPT。*继续学习的内容是什么呢？会有人类告诉它说，有人类问你问题，你不要说我不知道，不要乱写，其本质是以后有人问这个问题，需要将对应答案内容的符号的机率提高一些。
- 人类老师告诉人工智慧这个问题的正确的答案是什么，这就是督导式学习；而反过来，人工智慧从网络上拿到什么就拿来做文字接龙，而没有老师引导，就是自督导式学习。跟老师学习，叫做训练，而在网络上自己教自己，就是预训练。
- 预训练其实是一个很关键的技术，它其实是今天人工智慧成功的关键。GPT现在又叫做基石模型，经过语序的学习人类的教学的过程，叫做微调finetune，可能GPT和ChatGPT，只是经过了一点点模型的微调，就取得了很好的效果。
督导式学习的重要性：加入人类老师的最低训练参数的人工智能比不加入最高训练参数的人工智能的性能要好
- 预训练有多重要呢？有预训练后，监督式学习不用大量资料
  - 在多种语言上做预训练后，只要教某一语言的某一任务，自动学习其他语言的任务
- 督导式学习是画龙点睛，有了预训练后督导式学习不需要很多督导学习资料
除了督导式学习，还可以通过增强式学习RL来加强它的能力：不需要提供正确答案，而是提供什么答案是好的什么是不好的
- 增强式学习的概念：对于一个问题，ChatGPT给你两个答案，当其中一个答案好过另一个答案时，这时候，模型需要将比较好的答案提高概率，比较差的答案降低机率。
- 为什么增强式学习要放在最后，要先做预训练，然后做督导式学习，最后做增强式学习？
  这是因为模型需要有一定程度的能力才适合进入增强式学习的阶段，需要模型在提供的多个答案中偶有佳作才行，然后才提高好的答案的机率; 如果模型本来就很烂，勉强说一个比较好，也没有很大帮助，这也是为什么要放在最后一个阶段
- 增强式学习又再分为两个阶段：
  1. 模仿人类老师的喜好：另外训练一个模型RewardModel，把人类老师的答案给这个模型，模仿人类老师，人类老师就觉得好的答案，给一个比较高的分数，不好的答案给一个比较低的分数，来代替人类老师的角色
  2. 把人类老师直接丢掉，用RewardModel来代替人类老师的角色，给出一个问题答案后，丢给RW，如果RW给出一个比较高的分数，那模型就要提高这个答案的机率，反之降低机率。
ChatGPT的训练过程分为三个阶段：预训练、督导式学习、增强式学习
- 现在常把督导式学习和增强式学习，称为一个名词对齐，对其人的需求，满足人类要它做的事
- GPT3在经过督导式学习和增强式学习后，那个模型叫做GPT3.5