logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Unigram LM 分词算法

本文详细介绍了基于EM算法的Unigram语言模型分词方法。主要内容包括:1)EM算法框架,通过E步(前向-后向算法计算期望出现次数)和M步(更新token概率)迭代优化;2)Viterbi算法用于解码阶段寻找最优分词路径,并讨论了边界处理、性能优化等实现细节;3)常见误区分析,如概率归一化问题和字符token保留的必要性。文章系统阐述了从理论推导到工程实现的完整流程,包括平滑处理、初始词汇表构建

#算法#人工智能#深度学习
Tokenizer 分词

本文探讨了Tokenizer的核心任务及其技术实现。文章首先分析了按字分词和按词分词的局限性,指出子词(Subword)作为中间方案的优势。重点介绍了两种主流分词算法:BPE(Byte Pair Encoding)及其改进版SentencePiece,后者通过字节级处理和语言无关性解决了BPE的不足。文章还详细说明了token到数字的转换过程,并分析了中文分词的特殊挑战,包括无空格分隔、分词歧义等

#搜索引擎#前端#人工智能
NTK / YaRN(RoPE 外推技术)详解

摘要:RoPE外推技术演进经历了三代方案:初代位置插值(PI)因压缩所有维度导致性能损失大;二代NTK-aware Scaling通过隐式分治实现4-8倍外推;当前最优方案YaRN采用显式分段频率插值(高频保留/中频混合/低频内插)和温度修正,在保持RoPE优势的同时实现16-64倍无损外推。相比ALiBi,YaRN在性能、生态支持和扩展性(256k+上下文)方面更具优势,已成为LLaMA等主流模

#人工智能#机器学习#深度学习
到底了