logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

推荐系统混排 - DPP算法

是一种用于建模和选择具有多样性的子集的概率模型。DPP是通过行列式来度量子集之间的多样性,它广泛应用于机器学习、信息检索、推荐系统、自然语言处理等领域,尤其适用于需要同时考虑和的场景。

文章图片
#算法
大模型基础组件 - Tokenizer

Tokenizer分词是大模型的基础组件,用于将文本转换成模型可以理解的形式。常见的分词方式包括基于词的切分(word-based)、基于字符的切分(character-based)、基于子词的切分(subword-based)。基于词的切分和基于字符的切分都比较简单容易理解,这里只介绍主流的分词方法subword-based。subword-based方法的目的是通过一个有限的单词列表来解决所有

文章图片
#中文分词
到底了