
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
ViT与DiT:Transformer视觉技术
x_p^NE] + E_{pos} $$DiT的去噪过程: 在扩散步 $t$,噪声预测网络 $\epsilon_\theta$ 参数化为Transformer: $$ \epsilon_\theta(x_t, t, c) = \text{DiT-block}(x_t + c_{temb}, c_{cond}) $$ 其中 $c_{temb}$ 是时间步embedding,$c_{cond}$ 是条
到底了







