很久没有更新文章,最近真的太忙啦1dbce373fad2630aff48fdf6332bcf38.png,在T2I领域,学习速度真的赶不上进化速度!每天都有无数新模型、新插件、新玩法涌现。玩得太上瘾啦。

上月初我去参加我硕士专业的夏季烧烤大趴,跟我的论文导师重逢(好多年没见啦)。他今年也赶风头开课讲授 Generative AI 与商业创新的结合。不过他的课主要讲的是LLM,听说我在玩T2I,就邀请我回母校的商学院做了个分享。我为那次分享做了个简单时间线,罗列了我认为文生图领域至关重要的里程碑(基于扩散模型)。

d7ad041767c3607b526cc61c9ce0c249.png

时间轴的上排是闭源相关,下排是开源相关

这个领域的一切都始于 CLIP 开源,CLIP 是一个通过自然语言监督有效地学习视觉概念的神经网络。通过使用 CLIP 可将文本和图像连接在一起。

CLIP 的全称是 Contrastive Language–Image Pre-training,也就是文本和图像对照的预训练模型,数据集使用的是 LAION-400M,包含 4 亿组从互联网上收集的 文本-图像对。文本编码器提取文本特征,图像编码器提取图像特征,两个放到一起对比相似度,从而让 AI “掌握” 文本-图像 的匹配关系。

21 年 1 月 CLIP 发布后(与 CLIP 一起发布的还有 DALL·E 第一代文生图模型,生成能力有限),基于它的各种文生图模型相继出现,Disco Diffusion 也是在这个时候诞生,此时它们的生成效果都并不理想,但社区对未来充满了憧憬。

21 年 12 月,OpenAI 发布了 Glide,即 Guided Language-to-Image Diffusion,它是 DALLE 2 的基础。同一个月,慕尼黑大学 Compvis 实验室发布了 Latent Diffusion 的论文 High-Resolution Image Synthesis with Latent Diffusion Models,它是生成能力实现重大突破基础。

基于 Glide 的论文和各种探索,T2I 开源社区开启了 Disco Diffusion 项目,22 年 3 月 Disco Diffusion v5 发布,这是图像生成模型第一次出圈引爆,吹响了打开 AI 艺术大门的号角,魔法由此开始释放。

同一个月,Midjourney 通过包装使用 Disco Diffusion,进行了商业应用。

22 年 4 月,OpenAI 发布了 DALL·E 2。它的生成能力有了较大提升,但光芒很快就会被掩盖。

为了与 OpenAI 竞争,Google在22 年 5 月和 6 月发布了 ImagenParti 的论文,但一直没有公开发布过产品,极少有人真正体验过这两个 SOTA 模型,Google 保持着其在ML研究领域高调发paper但绝不ship任何产品的姿态,在T2I领域同样也起大早赶晚集,最后甚至压根就没现身。

真正的转折点来了,22 年 8 月发布的 Stable Diffusion 1.5,由 Stability AI 与慕尼黑大学 Compvis 实验室合作训练完成。它的光芒很快盖过了其他模型,加之后来的 LoRA 和 ControlNet 如虎添翼,构建了庞大的 SD 生态。

同月,谷歌发布了 Dreambooth 的论文 DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation。对自家的T2I 预训模型(也就是前文提到的Imagen,当然这个技术也可以应用于其它扩散模型)进行微调,使其学会将某 identifier与该特定主题绑定。只要输入少量该主题的图片用于训练(通常3-5张),就可让模型能用该 identifier 生成该主题的在不同背景下演绎的个性化图像。比如把"xiqiao_meowmeow"与一些我的脸图绑定后训练,就能用xiqiao_meowmeow 生成出我在画漫画的结果,即使训练素材里只包含了我的脸。

22 年 11 月 Midjourney v4 发布,它的生成能力和艺术感惊人,使其一举奠定了MJ 作为商业闭源模型无法撼动的王者地位。

23 年1 月,LoRA 诞生,"它并不改变原模型的权重,而是在线性层旁边新增一个下采样-上采样的支路,通过训练这个支路来完成微调。因此,同一个基底 SD 模型可以搭载不同的 LoRA 使用,具有很高的灵活性。由于 LoRA 支路网络的参数量小,相比微调整个模型,对算力的需求更加友好,并且也能达到不错的效果,因此很快受到大家的热烈欢迎,成为了目前最流行的微调 SD 的方法之一。"  
https://zhuanlan.zhihu.com/p/640144661

2 月,这个领域的天才人物张吕敏发布 ControlNet。它的出现代表着 T2I 生成开始真正变得可控,能够成为真正的生产力工具。ControlNet 比之前 img2img 提供了更丰富更准确的控制方式,可以直接提取 input 画面的边缘、深度、语义分隔、深度信息,以及人物的姿势等。精确控制AI 生成完美的手势和正确的手指再也不是问题。

3 月 Adobe 发布了 Firefly,将生成式 AI 集成到自己的产品 Photoshop Beta 以及面向普通人的 Express 中,正式加入这张大战。Adobe 在自家拳头产品里的深度集成(碾压了所有第三方插件)以及我烧得起钱你随便用的战略,使其在AI图像的生成量极快的上升,远超 DALLE2。虽然上场晚,但稳坐第三把交椅。

7 月,Stability 开源了 SDXL1.0,Stability.AI 最新一代旗舰模型。当之无愧的最强开源文生图模型。高参数,高分辨率,极强的 prompt 理解力,极强的写真照片类图像生成能力,当然推理和训练成本也大大提高,将会重塑 T2I开源社区的格局。

回顾文生图扩散模型的发展史,才两年多时间就走到了今天,成为一项一种每天被数百万人使用的技术,在许多领域塑造着未来。


SDXL1.0 发布后,我花了两周的时间,开足马力,电力拉满,将两个新模型 MJv5.2 和 SDXL1.0 的艺术家风格图跑出来,添加到 AIGC 艺术样式库 lib.KALOS.art 中。

目前文生图基础模型中,谁的生成能力更强,艺术感更好呢?

我们以几位代表性艺术家的 Fine-art 类肖像画来做一个比较,看看这一年来,SD和MJ这两家文生图模型的进化:

Vincent van Gogh,风格识别度极高,无人不知的传奇艺术家

21b5787a8fde12a4179956d6b1f1bffa.pngSD1.5 https://lib.kalos.art/artist/aa142cf4-c57a-4985-93ab-b53f803a6bc3?model=2 

b61bb0cb173a00e40f77c6f136bf5429.jpegSDXL1.0 https://lib.kalos.art/artist/aa142cf4-c57a-4985-93ab-b53f803a6bc3?model=5 

99398cd0a24cfa2bd9ab3fc3d1c92b9f.pngMJv4 https://lib.kalos.art/artist/aa142cf4-c57a-4985-93ab-b53f803a6bc3?model=1 

c0d84741831d9522f5eaf9df2a28f82d.pngMJv5.2 https://lib.kalos.art/artist/aa142cf4-c57a-4985-93ab-b53f803a6bc3?model=4 

Edmund Dulac,以精细而飘逸画风为特色的书籍、杂志插画家,著名的纸币、邮票设计师

9ce9b66c5d18963759e5e77818c18e9d.jpegSD1.5 https://lib.kalos.art/artist/a36e9799-fa7c-40b4-855f-9ea160f699a6?model=2

c09574d4c457a3d4a905175cfd3a11a2.jpegSDXL1.0 https://lib.kalos.art/artist/a36e9799-fa7c-40b4-855f-9ea160f699a6?model=5

4bfe72d5fece3998d736fd7e97f14f0c.pngMJv4 https://lib.kalos.art/artist/a36e9799-fa7c-40b4-855f-9ea160f699a6?model=1

d86d66c5d3c98986239cca9a57d9ba82.pngMJv5.2 https://lib.kalos.art/artist/a36e9799-fa7c-40b4-855f-9ea160f699a6?model=4

Amedeo Modigliani,以优美弧形曲线和修长脖颈为特色的意大利肖像画家

7d05340ec6b02fc64b7bf495561e22e3.png‍SD1.5 https://lib.kalos.art/artist/0900ebd2-6ce1-4e2b-ba91-bc7f6f84cdbd?model=2 

3e8088ee8da38b578126f5b425c915cb.jpegSDXL1.0 https://lib.kalos.art/artist/0900ebd2-6ce1-4e2b-ba91-bc7f6f84cdbd?model=5

3c95ef1f8564d87844e29c97750d04dc.pngMJv4 https://lib.kalos.art/artist/0900ebd2-6ce1-4e2b-ba91-bc7f6f84cdbd?model=1 

51a0abccb1f62d229c722e3bd66e3590.pngMJv5.2 https://lib.kalos.art/artist/0900ebd2-6ce1-4e2b-ba91-bc7f6f84cdbd?model=4

Sandro Botticelli,文艺复兴早期画风优雅飘逸的意大利画家,《维纳斯的诞生》和《春意盎然》

14b9e9be053ab3f6d51e175f745953a9.png‍SD1.5 https://lib.kalos.art/artist/750d588d-de84-455d-b845-4f44b30cf931?model=2 

7c3b7af5cbb2a4261d7b3ff3f16225b5.jpegSDXL1.0 https://lib.kalos.art/artist/750d588d-de84-455d-b845-4f44b30cf931?model=5 

fcb5d4cde7671bf10ceb1f318bd2dbf8.pngMJv4 https://lib.kalos.art/artist/750d588d-de84-455d-b845-4f44b30cf931?model=1 

2c561a68a16c93e90e3d8996ee23f177.pngMJv5.2 https://lib.kalos.art/artist/750d588d-de84-455d-b845-4f44b30cf931?model=4 

Aubrey Beardsley,唯美主义和颓废主义的先驱,无可匹敌的黑白装饰风格艺术家

deb236124a8492149e9ec2b9b4de08fa.pngSD1.5 https://lib.kalos.art/artist/44f5df6c-0bcd-41f1-9547-3ab3775cbf65?model=2 

e316d57048b0578f820a96ecf55fe136.jpegSDXL1.0 https://lib.kalos.art/artist/44f5df6c-0bcd-41f1-9547-3ab3775cbf65?model=5 

eae2a448964dc813631fae8852cd5d4b.pngMJv4 https://lib.kalos.art/artist/44f5df6c-0bcd-41f1-9547-3ab3775cbf65?model=1 

2fb72242140cfa73b1ec24d3de5158db.pngMJv5.2 https://lib.kalos.art/artist/44f5df6c-0bcd-41f1-9547-3ab3775cbf65?model=4

Cecily Brown,突破具象绘画边界,探索性和欲望,充满活力和富有表现力的抽象画大师

126895a431fa7028c95e1eb5bc3e0c2f.png‍SD1.5 https://lib.kalos.art/artist/fa758d06-5875-444f-b0a0-a9e6f9ca88f8?model=2 

1ac827412b83b799af0ed671444e7857.jpegSDXL1.0 https://lib.kalos.art/artist/fa758d06-5875-444f-b0a0-a9e6f9ca88f8?model=5 

7b5da6f5cd2de2d6d57a8f78afafc1b6.pngMJv4 https://lib.kalos.art/artist/fa758d06-5875-444f-b0a0-a9e6f9ca88f8?model=1 

872c841d704ed7667c18a16859dac3b7.pngMJv5.2 https://lib.kalos.art/artist/fa758d06-5875-444f-b0a0-a9e6f9ca88f8?model=4 

Jean Metzinger,立体主义画派奠基人之一,碎片化、几何和多重视角

bdadefee770e89c26146e921066bd52f.pngSD1.5 https://lib.kalos.art/artist/31dbd5f2-0884-4af7-8dc0-8041695645c9?model=2

cfbc963ac75a07bfb3449c18ed3428e7.jpegSDXL1.0 https://lib.kalos.art/artist/31dbd5f2-0884-4af7-8dc0-8041695645c9?model=5

9187f7409e0c43907bc952d3ddc89487.pngMJv4 https://lib.kalos.art/artist/31dbd5f2-0884-4af7-8dc0-8041695645c9?model=1 

321157c907883eb7568fe4f76e253886.pngMJv5.2 https://lib.kalos.art/artist/31dbd5f2-0884-4af7-8dc0-8041695645c9?model=4 

Max Beckmann,大胆的表现主义大师,捕捉人物心理,描绘人类的处境,探索苦难、孤立和现代生活的复杂性

bd311297656e50ac72f866c0918780b4.png‍SD1.5 https://lib.kalos.art/artist/596ccd0c-8223-4c8f-b72f-b4f627fa04ed?model=2 

27855db5a632b85f1023882fb12e7ed7.jpegSDXL1.0 https://lib.kalos.art/artist/596ccd0c-8223-4c8f-b72f-b4f627fa04ed?model=5 

4df3b8c4a5c1685e8d05d459b04cb29e.pngMJv4 https://lib.kalos.art/artist/596ccd0c-8223-4c8f-b72f-b4f627fa04ed?model=1

703c72f3c51c515ca4cd25eec8665505.pngMJv5.2 https://lib.kalos.art/artist/596ccd0c-8223-4c8f-b72f-b4f627fa04ed?model=4 

Egon Schiele,以扭曲但极富表现力的人物形象闻名,早期表现主义大师

26951e0a82d5f574f5f4eda0cf03e251.pngSD1.5 https://lib.kalos.art/artist/fdf40250-9ba5-4b2d-bd12-8c58bd7ba556?model=2 

117c15db7eeb620dc0d9289d556980f9.jpegSDXL1.0 https://lib.kalos.art/artist/fdf40250-9ba5-4b2d-bd12-8c58bd7ba556?model=5 

67cc7ecb797be243f5701ade2b56bd9b.pngMJv4 https://lib.kalos.art/artist/fdf40250-9ba5-4b2d-bd12-8c58bd7ba556?model=1 

f03191ab2d70366286fb6f9cf2a054f3.pngMJv5.2 https://lib.kalos.art/artist/fdf40250-9ba5-4b2d-bd12-8c58bd7ba556?model=4 

Coby Whitmore,捕捉 20 世纪中期华丽、时尚社会生活本质的优雅女性肖像画

4fc94aba9a735ea2fa1a67d55b16555e.pngSD1.5 https://lib.kalos.art/artist/fdf40250-9ba5-4b2d-bd12-8c58bd7ba556?model=2 

c4d51b30e1c6f81b180780741030ff0d.jpegSDXL1.0 https://lib.kalos.art/artist/fdf40250-9ba5-4b2d-bd12-8c58bd7ba556?model=5 

0df0f1d826e76984f5d320fd56543486.pngMJv4 https://lib.kalos.art/artist/fdf40250-9ba5-4b2d-bd12-8c58bd7ba556?model=1 

afc39930177088bc41602b20756d03d5.pngMJv5.2 https://lib.kalos.art/artist/fdf40250-9ba5-4b2d-bd12-8c58bd7ba556?model=4 

AIGC 艺术的进化之快超出所有人的想象,SD1.5 生成能力和美感虽然不如 SDXL1.0 和 MJv4 & 5.2,但它需要的资源少,社区基于它 fine-tune 出了许多非常优秀的大小模型,再配合 controlNet,LoRA 和一些插件,它的综合表现、开放性、多样性在某些应用场景下甚至比新一代高参数的 SDXL  和 MJ v4 & 5.2 要好。

SDXL1.0 则出道即巅峰,社区正在积极拥抱它,相信社区各路大佬,定会玩出各种神器。

MJv4MJv5.2 易用程度和美感一如既往的好,从未失去其艺术性王者的地位,虽然可控性上比较弱。

想要看看更多艺术家风格在不同模型里的呈现,来我的 Lib.KALOS.art 看看吧, 目前全球最大的文生图艺术风格参考库:

  • 1300+ 艺术家共万余张 4v1 样式图片

  • 覆盖五代最主流的文生图基础模型

  • 用每个艺术家样式生成了 8~11 种常见主题供参考,如 人像、风景、科幻、街景、动物、花卉等

05ff7153240905b9095e4ef3408e4873.png

2fd4cd6a26e80b5fc3679872f6357921.png

79949342f06eac4af7b63f86cfb0e812.png

0267ea2d9c042e828d0b01ad3159f6cd.png

cc46e59d45eef49ec431621fd461f821.png

现有常见 AIGC 样式库,每个艺术家都只有几张 “artwork by artistname” 的结果图片。但我认为艺术家样式需要跟不同主题结合后才能更全面地体现 他/她 在模型里的识别度和表现力。所以我们为 每个艺术家生成了 8~11 个主题,按固定布局在独立页面里呈现。很适合用于艺术家和模型之间的横向比较。

720179f88b483b9aec757ba58b23ca97.png

你可以在主题页面横向比较所有艺术家,比如

风景画主题

3d00137c2c1fe862a2a02b40a6c56106.png

花卉主题

c3d75d34b7185c2982b5094459d419cb.png

卡通角色设计主题

9b0f0cadd6087dbbfff27d45767d16c8.png

每个艺术家在不同模型里都拥有一个独立的 gallery 页面。里面链接了该艺术家的维基介绍或个人主页,以及该艺术家的原作 (Bing 的图片搜索结果)。

用导航里的下拉菜单可轻松切换到该艺术家的其它模型,比较它们在各代模型里的差异。

5a6cd00bb996e4ec0247b34d3eec0cd7.pngin MJ v4 https://lib.kalos.art/artist/9c2f7d7a-3b2b-4e89-a066-2d8f656ddbd3?model=1

2984a894731af6649456dfac7ec1790e.pngin MJ v5.2 https://lib.kalos.art/artist/9c2f7d7a-3b2b-4e89-a066-2d8f656ddbd3?model=4 

0309054e9f60923c15176d76c7b90609.pngin SDXL1.0 https://lib.kalos.art/artist/9c2f7d7a-3b2b-4e89-a066-2d8f656ddbd3?model=5 

让 Lib.KALOS.art 帮你解锁 AI 艺术创作的无限可能吧。

Logo

昇腾万里,让智能无所不及

更多推荐