logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Finetune时更改tokenizer词表

由于模型训练的需要,当前词表对分词操作不理想,因此选择修改tokenizer词表~在special_tokens中添加不想被拆分开的单词或者文字special_tokens = []with open("待添加词所在文件", "r") as f_vocab:for line in f_vocab:special_tokens.append(line.strip())tokenizer = Auto

#python#pytorch#nlp
到底了