
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Diffusion Model 原理详解:AI 绘图到底是怎么从噪声中生成图像的?
这点很重要。文本条件不是生成结束后再筛选图片,也不是只在开头给一个标签。在文本到图像扩散模型中,文本条件会参与多次去噪步骤。当前这一步去噪,应该往哪个方向更符合文本描述?这也是为什么 prompt 会强烈影响生成结果。正向过程:把真实图片一步步加噪,直到接近纯噪声。反向过程:训练模型从带噪图片中预测噪声,并逐步恢复图像。条件生成:把文本 embedding 注入 U-Net,让去噪过程朝 prom
CLIP 原理详解:图文对齐如何连接理解与生成
CLIP是一种突破性的多模态模型,通过对比学习将图像和文本映射到同一语义空间,实现了跨模态的语义对齐。其核心在于用自然语言替代传统分类标签,使模型从学习固定类别转变为理解开放语义关系。CLIP采用双编码器结构,分别处理图像和文本,并通过计算余弦相似度实现图文匹配。训练过程中,模型通过大规模互联网图文对学习区分正负样本,从而建立泛化能力更强的视觉-语言关联。这种能力不仅支持零样本分类,还为后续生成模

Qwen Image底模训练指南(使用musubi-tuner项目)
摘要:本文介绍了使用musubi-tuner项目对qwen-image模型进行全量微调的方法。
Transformer原理解析【学习笔记】
Transformer是一种用于自然语言处理(NLP)和其他任务的深度学习模型,由Vaswani等人在2017年的论文《Attention is All You Need》中首次提出。它主要通过注意力机制而非传统的循环神经网络(RNN)或卷积神经网络(CNN)来处理序列数据。
到底了







