fof920 个人主页

@weixin_44529258

fof920

2023-11-17 12:07:52 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Base LLM | 从 NLP 到 LLM 的算法全栈教程第八天

人工设计的、离散的文本指令，我们称之为“硬提示”（Hard Prompt）。但是，“硬提示”这种“刀耕火种”式的方法存在三个明显的局限。找到最优的提示词往往需要大量的试错和经验，过程繁琐且不稳定，充满了“玄学”；离散的文本提示在表达能力上存在上限，难以充分激发和精确控制大模型的潜力；而且在一个模型上精心设计的提示，换到另一个模型或另一种语言上，效果可能大打折扣。学术界和工业界开始探索一种全新的方法

#自然语言处理 #人工智能

Base LLM | 从 NLP 到 LLM 的算法全栈教程第八天

#自然语言处理 #人工智能

Base LLM | 从 NLP 到 LLM 的算法全栈教程第七天

加权交叉熵损失最简单的方法就是“加权”。给数量稀少的实体标签（B, M, E, S）一个更高的权重，给数量庞大的非实体标签（O）一个较低的权重。例如，我们可以设置实体损失的权重为 10，非实体损失的权重为 1。这样，模型在反向传播时，如果弄错了一个实体 Token，会受到比弄错一个非实体 Token 大 10 倍的“惩罚”，从而迫使模型更加关注对实体的识别。

#深度学习 #人工智能

Base LLM | 从 NLP 到 LLM 的算法全栈教程第六天

与原始 Transformer 解码器相比，Llama2 及其同类模型进行了一系列改进，以提升性能和训练稳定性。它的数据流可以概括为：（1）：将token_ids转换为词向量。（2）：数据依次通过 N 个相同的 Transformer Block。RMSNorm和（3）：在所有层之后，进行最后一次 RMSNorm，并通过一个线性层将特征映射到词汇表 logits。

#自然语言处理 #人工智能

Base LLM | 从 NLP 到 LLM 的算法全栈教程第四天

2014年，研究者们提出了架构，它成功地将一种通用的架构应用于序列转换任务。模型同样被拆分为两个组件，其中扮演“阅读和理解”的角色，负责接收整个输入序列，并将其信息压缩成一个固定长度的C，这个向量即为输入序列的“语义概要”。则扮演“组织语言并生成”的角色，它接收上下文向量 C 作为初始信息，然后逐个生成输出序列中的词元。编码器就是常规的LSTM架构，上下文变量C可以由每一个时间步的隐藏状态h经过线

#自然语言处理 #人工智能

Base LLM | 从 NLP 到 LLM 的算法全栈教程第一天

把新词加入词表，“教会”

#自然语言处理 #人工智能

到底了