
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
不一定。Token 可能是字、词、子词、标点、空格片段。可能被切成多个 token。
在上一篇文章中,我们从整体上介绍了大语言模型的发展路线。大语言模型并不是突然出现的,它背后经历了一个长期演进过程:统计语言模型↓神经网络语言模型↓↓Seq2Seq↓Attention↓↓↓大语言模型如果想真正理解大语言模型,不能一上来就只看 GPT、LLaMA、Qwen 或 DeepSeek。我们需要先理解一个更基础的问题:为什么早期的 RNN、LSTM、Seq2Seq 结构不够用了?
Causal Language Modeling 可以翻译为因果语言建模。这里的“因果”不是因果推理中的因果,而是指:当前 token 的预测只能依赖它之前的 token,不能依赖它之后的 token。假设一个文本序列为:语言模型要建模整个序列的概率:请总结下面这段文字:[长文本]模型输出摘要。
在前面几章中,我们已经介绍了 Transformer、Self-Attention 和 GPT 为什么使用 Decoder-only 架构。到这里,一个非常基础但容易被忽略的问题出现了:文本到底是如何进入大语言模型的?但是模型不能直接处理中文、英文或代码字符串。对模型来说,输入必须先被转换成数字 ID,再经过 embedding 层变成向量,最后才能进入 Transformer。这个过程就是,负责
Article:[一篇新闻文章]TL;GPT-2 会根据前面的文章和TL;这个提示继续生成摘要。这里的关键是TL;。它在网络文本中经常表示“太长不看版摘要”。如果模型在预训练中学过这种模式,它就可能在看到TL;后生成摘要内容。GPT-2 的摘要能力比较初级。当输入文章并使用TL;作为提示时,模型能生成一些摘要式文本,但定量指标仍然比较弱,只是刚刚接近一些传统神经基线。这说明 GPT-2 已经开始学
在上一篇文章中,我们精读了 GPT-1。GPT-1 的核心思想是:先使用 Transformer Decoder 在大规模无标注文本上进行生成式预训练,然后再把预训练模型迁移到下游 NLP 任务中进行微调。它走的是。但是 GPT-1 有一个天然限制:它只能根据左侧上下文预测后面的 token,不能同时利用左右两侧上下文。如果模型要预测[MASK]位置的词,只看左边“我今天去”是不够的;右边的“上课
In-context learning 可以翻译为上下文学习。它指的是:模型在不进行梯度更新的情况下,仅根据输入上下文中的任务描述和示例,临时适应一个新任务。这和传统微调非常不同。给模型很多任务样本↓计算损失↓反向传播↓更新模型参数↓得到适配任务的新模型把任务描述和示例写进 prompt↓模型读取上下文↓模型根据上下文模式直接输出答案↓模型参数不变也就是说,GPT-3 的 few-shot lea
在上一篇文章中,我们详细解释了 In-Context Learning。In-Context Learning 的核心现象是:大语言模型在不更新参数的情况下,只通过 prompt 中的任务说明和少量示例,就可以临时适应一个任务。正面这说明 prompt 不只是“随便问一句话”,而是模型执行任务时最直接的输入接口。,也就是提示词工程。
In-Context Learning 指的是:在不更新模型参数的情况下,通过在输入上下文中提供任务描述、输入输出示例或推理过程,使模型在当前上下文内完成新任务的能力。关键词含义不更新参数模型权重保持不变,不进行 fine-tuning上下文prompt 中提供的任务说明、例子、问题等内容临时学习只在当前输入中生效,换一个 prompt 可能表现不同完成新任务模型根据例子推断任务规则,并应用到新的
在大语言模型中,对齐通常指:让模型的输出更加符合人类意图、价值和偏好。Helpful:有帮助Honest:诚实Harmless:无害这三个词经常被简称为 3H。







