logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ViT与DiT:Transformer视觉技术

x_p^NE] + E_{pos} $$DiT的去噪过程: 在扩散步 $t$,噪声预测网络 $\epsilon_\theta$ 参数化为Transformer: $$ \epsilon_\theta(x_t, t, c) = \text{DiT-block}(x_t + c_{temb}, c_{cond}) $$ 其中 $c_{temb}$ 是时间步embedding,$c_{cond}$ 是条

#python#java#c# +4
到底了