logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

PAD_TOKEN和EOS_TOKEN

PAD_TOKEN 唯一作用:批量训练 / 推理时补齐短文本,让一批序列长度相同;仅放在每条序列 EOS 的后方,纯占位无语义;配合 attention_mask 和 labels=-100,全程屏蔽填充部分,不参与计算、不参与损失;模型只会输出 EOS,绝不会生成 PAD;LLaMA 等模型需手动设置 pad_token,否则批量训练报错。

#人工智能
到底了