2402_87879118 个人主页

@2402_87879118

2402_87879118

2025-10-30 21:57:23 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

PAD_TOKEN和EOS_TOKEN

PAD_TOKEN 唯一作用：批量训练 / 推理时补齐短文本，让一批序列长度相同；仅放在每条序列 EOS 的后方，纯占位无语义；配合 attention_mask 和 labels=-100，全程屏蔽填充部分，不参与计算、不参与损失；模型只会输出 EOS，绝不会生成 PAD；LLaMA 等模型需手动设置 pad_token，否则批量训练报错。

#人工智能

视频模型VIT、VIE

8n+1。

#python

到底了