
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
PAD_TOKEN和EOS_TOKEN
PAD_TOKEN 唯一作用:批量训练 / 推理时补齐短文本,让一批序列长度相同;仅放在每条序列 EOS 的后方,纯占位无语义;配合 attention_mask 和 labels=-100,全程屏蔽填充部分,不参与计算、不参与损失;模型只会输出 EOS,绝不会生成 PAD;LLaMA 等模型需手动设置 pad_token,否则批量训练报错。
视频模型VIT、VIE
8n+1。
到底了







