logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深入理解 LLM 分词器:BPE、WordPiece 与 Unigram

大模型中的分词是将文本转换为可处理离散单元(tokens)的关键步骤。现代模型主要采用子词(subword)分词算法,如BPE、WordPiece和Unigram。

文章图片
#深度学习#语言模型#自然语言处理
从GPT-1到GPT-3:生成式预训练语言模型的演进之路

本文系统梳理了OpenAI GPT系列模型从GPT-1到GPT-3的核心技术演进。GPT-1首次提出“无监督预训练 + 有监督微调”的两阶段范式,基于单向Transformer解码器实现多任务自然语言理解;GPT-2通过扩大模型规模与采用字节级BPE分词器,摒弃任务特定微调,转向零样本学习,仅依靠自然语言提示即可泛化至多种任务;GPT-3进一步将参数规模提升至1750亿,全面拥抱上下文中的少样本(

文章图片
#语言模型#深度学习#自然语言处理
到底了