logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLM学习笔记--2.1Transformer 架构-注意力机制

NLP任务中需要处理的文本往往以序列的形式出现,在注意力机制提出之前,专用于处理序列、时许数据的RNN常用来处理NLP任务。举例解释,若Q是“查找2024年奥运会举办地”,K是新闻全文的每个词,V是对应词的语义向量,注意力机制会计算Q与每个K的相关性,权重高的V被重点关注,最终输出“巴黎”的语义表示。以字典为例,假设查询值 Query 为“fruit”,所查询的文本内容为字典形式,字典中的键对应注

#学习#transformer#word2vec +1
LLM学习笔记--3.3 Decoder-Only PLM

Decoder-Only,即只使⽤ Decoder 堆叠⽽成的模型。Decoder-Only 就是⽬前⼤⽕的 LLM 的基础架构,⽬前所有的 LLM 基本都是 Decoder-Only 模型((RWKV、Mamba 等)。

#学习#人工智能
LLM学习笔记--3.1 Encoder-only PLM

Encoder - only PLM(Pre - trained Language Model,预训练语言模型 ),指仅使用 Transformer 架构中的编码器(Encoder)部分进行预训练和下游任务适配的语言模型。在预训练阶段,模型通过对输入文本的编码学习,捕捉丰富的语言知识和上下文信息;下游任务中,直接利用编码器输出的文本表示,结合简单的任务特定层(如分类层等 )完成各类自然语言处理任务

#学习#深度学习
到底了