Ideogram,一个一年前发布的AI生图模型,在生成图片领域一直不温不火,甚至大有要被遗忘的趋势。

但就在昨晚,Ideogram重磅推出他们模型的2.0版本,成功以超强的文字渲染能力,一骑绝尘。

Ideogram宣布,该模型支持生成5种不同的风格的图片:一般、写实、设计、3D和动漫。写实风格可以生成照片样的,设计风格可以轻松生成logo、海报等。

据评估,Ideogram 2.0明显优于Midjourney和OpenAI的DALLE-3。

令人眼前一亮的是,Ideogram称自己的文本渲染是业界领先水平,新的模型解决了AI生成图像领域的文本渲染问题,可以轻松处理约20个单词的内容。

这是什么样的概念呢?

要知道,一直以来,AI生图模型在文本渲染方面饱受诟病。

哪怕是想在图片中生成寥寥数语,AI的表现也不尽人意。这里拿比较火的Midjourney和Flux Schnell展示一下,我给它们输入这样的prompt:

An illustration of a letter pad with the text "Hi, I’m Xi Xiaoyao. I’m a content creator and If you love AI, please follow. From - Xi Xiaoyao". The letter pad is on a wooden. 信笺的插图,上面写着“hi,我是夕小瑶。我是一名内容创作者,如果你喜欢AI,请关注我。来自——夕小瑶。信笺位于木板上。

这是Midjourney给我的反馈,只能说文本内容一塌糊涂,单词错误、词不成句。

Flux就更加惨不忍睹了,简直牛头不对马嘴:

我甚至一度怀疑,Flux是不是有什么文本方面的幻觉。

但我拿着同样的prompt去问Ideogram时,我的感觉就是:Wow!

单词形状、拼写都没有问题,图片生成也符合要求。我真的震惊了家人们,这是AI能做到的效果吗?

美中不足的是,内容不完全正确(缺了一个I am、多了一个if),信纸的形状也有些奇怪。

此外,我还试了一下其他风格的图片生成,比如这个蝙蝠侠看报:

A cinematic shot of Batman sitting on a rooftop. He is reading a newspaper with the headline "The Joker Terrorizes Zavalia". The background contains a city skyline. 蝙蝠侠坐在屋顶上的电影镜头。他正在阅读一份标题为“小丑恐吓萨瓦利亚”的报纸。背景包含城市天际线。

先来看看Ideogram的效果:

符合要求,文字内容也正确,甚至在报纸上还印上了小丑的头像。

只是右手处的报纸形状不太正确;此外蝙蝠侠的脸也非常的“AI风”。

再来看看Midjourney的效果:

我认为蝙蝠侠的形象部分,Midjourney比Ideogram要写实一些。

但还是输在了文本内容方面。总觉得这段文字没有很好的融入到图片中。

还有Flux,生成质量也不差。但是文本方面是真的不忍直视:

甚至右下角还有个三条腿的人!

此外,在文字渲染的加持下,从设计方面看,Ideogram也非常强大:

A modern website design with a bubble tea theme. The background is a soft teal color. There's a peach bubble tea with tapioca pearlsin a clear cup. Next to the cup is a peach laptop with a blog post open. There's a comfortable teal chair with a curved back. The text "Relax, create, and work from home" is written in a modern font. 一个以珍珠奶茶为主题的现代网站设计。背景是柔和的青色。透明杯子里有一杯桃子珍珠奶茶,里面有木薯珍珠。杯子旁边是一台桃色笔记本电脑,上面打开着一篇博客文章。有一张舒适的青色椅子,带有弧形靠背。以现代字体书写“在家放松、创造和工作”文字。

这设计感,大家怎么评价?反正我要打印出来,贴在我们办公室的墙上了。

再拿Midjourney和Flux的图片对比一下吧!从文本上就输了,这简直比不了啊:

感觉Ideogram 2.0的文本渲染能力,简直领先其他家模型一个世纪啊!

Ideogram还在3D、动漫等领域也颇有建树,我就不进行对比了,只展示一下Ideogram 2.0的效果:

Ideogram还开放了API构建。开发人员可以将Ideogram 2.0集成到自己的应用程序中,与其他同赛道产品相比,该API能以更低的成本提供更卓越的图像质量。

不仅如此,App Store上也上线了Ideogram的应用程序:

令人捧腹的是,就在Ideogram 2.0上线数小时后,midjourney似乎是想做出一些反制措施:

Midjourney宣布,在网页版中向所有人开放免费试用!

Midjourney终于感受到危机了,但是我已经加入Ideogram了。

建议AI生图模型们快打起来!多给这一赛道带来一些竞争,多给这一领域带来一些突破。

不过,比较可惜的是,包括Ideogram在内,这些模型能镶嵌的文本仅限于英文,其他语种的渲染,或许还要等很久。

就中文这复杂的笔画和汉字数量,真是够AI们吃一壶的。

参考资料

 [1]https://about.ideogram.ai/2.0
 [2]https://twitter.com/midjourney/status/1826305298560418171

更多推荐