最近AI生图这块儿真的是卷疯了,前阵子Nano Banana刚把大家玩坏,现在字节又整了个 Seedream 4.0 出来。9月9号刚发布,我就迫不及待地去试了试,不试不知道,一试吓一跳,这东西确实有两把刷子。

9.11日晚,字节跳动发布的豆包·图像创作模型Seedream 4.0,一举拿下了Artificial Analysis「文生图」和「图像编辑」两大榜单的第一

今天就来跟大家唠唠这个新模型到底有多野。

先说说这次的几个大招

4K生图,这下真的清楚了

之前那些模型生出来的图,放大了看总感觉糊糊的,现在 Seedream 4.0 直接支持4K输出。我拿同一个描述试了试:

“生成一张未来科技城市的海报,要有那种赛博朋克的感觉,霓虹灯什么的都安排上”

结果真的是肉眼可见的差别,细节丰富得不行,放大看也不虚。

主体一致性,这个真的绝了

以前最头疼的就是让模型保持角色一致性,经常生出来四不像。现在这个功能简直是救星。

我试了个特别有意思的:把我家猫咪的照片做成3D手办的样子。

“参考这张猫咪照片,生成一个Q版3D手办,放在透明展示盒里,桌面摆拍的感觉,要那种手办店的专业展示效果”

生成出来的手办不仅保持了我家猫的特征,连毛色花纹都一模一样,这一致性做得真的到位。

在这里插入图片描述
下面我用一个C罗帅帅的照片来做测试,期望能生成一个3D打印的素材,

把这个人物做成可动手办的样子,要那种日系手办的精致感,配个酷炫的底座,光影要打得专业一点


这个效果感觉可以3D打印出来摆在桌子上了。

最近比较火的Gemini公仔成品照,我们可以实测下效果,参考图像是雷神图片:


我们提示语是:

以超写实风格制作出一个1/7 比例角色公仔模型,设计成市售完成品的样式,摆放在iMac 电脑桌上,搭配白色Apple 键盘。公仔站立在一个干净、圆形、透明的压克力底座上,底座上没有任何文字或标签。 整体由专业棚拍灯光打光,突显出公仔的雕刻细节。 画面背景中的iMac 萤幕正在显示相同角色的ZBrush 建模作业画面,形成「制作中」与「完成品」的对比视觉效果。 在公仔旁边放置一个包装盒,盒子为圆角设计并带有透明的前视窗。这个盒子的设计风格需与角色整体一致,包括相同的配色、图样与主题元素,仿佛是该角色的官方联名商品包装。 盒子呈开放状态(从顶部打开),内部仅露出透明塑胶内壳,盒子的高度略高于公仔,呈现出真实可收纳该模型的尺寸比例。

在这里插入图片描述
这效果简直太猛了,大家可以用自己的实物来测试下。

速度提升,基本上就是秒出图

官方说比之前快了10倍,实测确实很快。输入完提示词,基本上几秒钟就能看到结果,再也不用干等着了。

组图模式更省事,一键生成故事本

可以直接生成多图,比如我们可以生成故事连环画:

请帮我生成一个幼儿阅读绘本,画风整体是 Q 版治愈风,故事内容是乌鸦喝水的故事


最厉害的是可以生成故事绘本,这岂不是创作故事绘本神器:

请帮我生成一个幼儿阅读绘本,画风整体是 Q 版治愈风,故事内容是乌鸦喝水的故事


支持多页连载和在线翻页

直接给生成一个故事绘本,并且图文并茂,可以直接拿来当做哄娃素材了。

多图融合这个功能,真的玩出花了

这次最让我惊喜的就是多图组合功能。你可以同时上传好几张图,然后让它按照你的想法重新组合。

“请你根据我输入的三个角色,生成这三个角色互动的表情包,每一张可以是任意两个角色互动,也可以是三个角色一起的互动,要求是三个角色都是毛毡玩偶风格的,类似定格动画微缩场景,要求一共输出4张”

生成出来的表情包风格统一,每个都很有意思,完全可以直接拿来用。

中文处理,终于不用看乱码了

作为国产模型,在中文这块儿确实有优势。我专门试了几个中文场景:

1. 外卖门店头图

“外卖门店头图:卖烤冷面 突出效果”
生成出来的图文字清晰,步骤排版也很专业,感觉可以直接当做门店头图了。
在这里插入图片描述

2. 知识卡片

“做一张关于时间管理的知识分享卡片,要那种小红书风格,文字要简洁有力,配色要温暖一点”
这种知识卡片做得相当不错,文字排版很舒服,完全可以直接发朋友圈。

3. 小红书风格的旅游攻略

请帮我生成一个重庆旅游攻略,小红书风格,里面有具体路线图,

在这里插入图片描述
这张图片很贴心帮我生成三日攻略,并有模拟路线和地点,非常棒!

Seedream 4.0一些有趣的测试合集

笔者在空闲时间测试了一席有趣的案例,下面分享一下提示语和效果,欢迎大家可以测试更多的例子:

1. "如果名画主角生活在2024年"挑战

  • 蒙娜丽莎开直播带货

参考达芬奇《蒙娜丽莎》中的女性,保持她神秘的微笑和面部特征,但她现在坐在现代直播间里,面前摆着各种美妆产品,手里拿着手机自拍,背景是粉色的直播间布置,4K超清画质

  • 维纳斯女神的健身vlog

参考《维纳斯的诞生》中的女神,保持她的古典美貌和气质,但现在她穿着现代运动装在健身房举哑铃,旁边放着运动水杯和毛巾,表情认真专注,Instagram风格摄影

在这里插入图片描述

  • 戴珍珠耳环的少女当up主

参考维米尔《戴珍珠耳环的少女》,保持她清澈的眼神和标志性珍珠耳环,但现在她坐在现代书房里录制读书分享视频,面前放着书籍和台灯,温暖的黄色灯光

在这里插入图片描述

2. "童年玩具成精"挑战

参考乐高小人的方正头部和简洁五官,但现在是真人比例,穿着正装在地铁站等车,手里拿着公文包,表情依然保持乐高小人标志性的微笑

3.企业应用展示案例

  • 一秒钟开遍全球的连锁店

这个设计效率嘎嘎快:

基础店铺设计:简约现代的咖啡厅logo和基本布局

日本版本:加入榻榻米元素,使用暖木色调,门口放着暖帘,菜单有日文
美国版本:工业风装修,砖墙和金属元素,更大的空间和开放式布局
法国版本:优雅的巴洛克装饰,大理石台面,精致的吊灯,露天座位
中国版本:融入传统元素,木质屏风,书法装饰,茶文化展示区

  • 手绘设计草图快速生成

生成一个扫地机器人的手绘设计草图

总结一下

整体来说,Seedream 4.0 确实是个不错的升级。特别是多图融合、主体一致性这些功能,解决了很多实际痛点。

对个人用户来说,各种创意玩法挺有意思的,3D手办、表情包、换装这些都能玩得很开心。

对企业用户来说,电商营销、设计预览这些场景确实很实用,能提高不少效率。特别值得一提的是,Seedream 4.0 已经在火山方舟全量上线,提供企业级API服务。通过火山方舟API调用,不仅能体验到最满血的4K高清输出能力,还享受低延迟、高稳定性的专业服务,这对企业生产环境来说非常重要。

对开发者来说,火山方舟的API接口设计得还算合理,集成起来不复杂,而且相比其他平台,在国内的网络环境下调用更稳定,延迟更低。

火山方舟模型地址: https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seedream-4-0

需要注意的是,现阶段Seedream 4.0的4K能力只有通过火山方舟API才能体验到完整版本! 如果你是开发者或者有企业级需求,强烈推荐直接使用方舟API,性能和稳定性都有保障。

下面是一个请求案列:


# Seedream 4.0 火山方舟API调用示例
# 多图输入生成场景:生成女孩和牛玩偶在游乐园坐过山车的不同时段图片

curl -X POST https://ark.cn-beijing.volces.com/api/v3/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $ARK_API_KEY" \
  -d '{
    "model": "doubao-seedream-4-0-250828",
    "prompt": "Generate 3 images of a girl and a cow plushie happily riding a roller coaster in an amusement park, depicting morning, noon, and night.",
    "image": [
      "https://ark-doc.tos-ap-southeast-1.bytepluses.com/doc_image/seedream4_imagesToimages_1.png", 
      "https://ark-doc.tos-ap-southeast-1.bytepluses.com/doc_image/seedream4_imagesToimages_2.png"
    ],
    "sequential_image_generation": "auto",
    "sequential_image_generation_options": {
        "max_images": 3
    },
    "response_format": "url",
    "size": "2K",
    "stream": true,
    "watermark": true
}'

最后说一句,现在这些AI模型迭代真的太快了,感觉每过几个月就有新的惊喜。不管是搞技术的还是做内容的,都得跟上这个节奏,要不然真的会被甩开。

有兴趣的朋友可以去试试,体验地址我放在下面了:

体验地址: https://www.volcengine.com/experience/ark?launch=seedream
短链接: https://event1.cn/5LGO92

试完了记得回来分享一下你们的体验,特别是那些脑洞大开的玩法,我也想学学。

Logo

欢迎加入我们的广州开发者社区,与优秀的开发者共同成长!

更多推荐