LETTER• 个人主页

@ALLLLLLLLLY

LETTER•

2024-01-21 16:56:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深入理解 LLM 分词器：BPE、WordPiece 与 Unigram

大模型中的分词是将文本转换为可处理离散单元（tokens）的关键步骤。现代模型主要采用子词（subword）分词算法，如BPE、WordPiece和Unigram。

#深度学习 #语言模型 #自然语言处理

从GPT-1到GPT-3：生成式预训练语言模型的演进之路

本文系统梳理了OpenAI GPT系列模型从GPT-1到GPT-3的核心技术演进。GPT-1首次提出“无监督预训练 + 有监督微调”的两阶段范式，基于单向Transformer解码器实现多任务自然语言理解；GPT-2通过扩大模型规模与采用字节级BPE分词器，摒弃任务特定微调，转向零样本学习，仅依靠自然语言提示即可泛化至多种任务；GPT-3进一步将参数规模提升至1750亿，全面拥抱上下文中的少样本（

#语言模型 #深度学习 #自然语言处理

到底了