logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于AI Agent的童话编剧与绘本生成器(三)多角色一致性:从ControlNet到Qwen的迁移

在前两篇博客中,我们基于Stable Diffusion + ControlNet IP-Adapter实现了单角色的稳定生成,并通过分层提示词、解剖学正负向约束以及CLIP+InsightFace的重试闭环,让主角的一致性达到了可用水平。测试结果令人沮丧——第4页的小鸟还算正常,第5页的小鸟要么体型变得和小男孩一样大,要么羽毛从蓝色变成了灰色,甚至有时脸上出现了人类的五官特征。配角权重大,主角特

#人工智能
基于 AI Agent 的童话编剧与绘本生成器(七)出图体验优化与绘本 PDF 导出

第六篇之前,imaging 阶段的进度长时间卡在 80%,前端只显示「正在绘制绘本插图…结果 Qwen 会优先画信息更满的主角,配角容易被画小、画没、或只留一个模糊轮廓——不是参考图没传,而是 prompt 里配角「该怎么站在画面里」没说清楚。每页插图落在对应分镜位置,PDF 和阅读页使用的是同一套。:双角色页为配角补上独立的、带左右位置的 action 描述,告别「配角被画没」;),作为同一思路

基于AI Agent的童话编剧与绘本生成器(三)多角色一致性:从ControlNet到Qwen的迁移

在前两篇博客中,我们基于Stable Diffusion + ControlNet IP-Adapter实现了单角色的稳定生成,并通过分层提示词、解剖学正负向约束以及CLIP+InsightFace的重试闭环,让主角的一致性达到了可用水平。测试结果令人沮丧——第4页的小鸟还算正常,第5页的小鸟要么体型变得和小男孩一样大,要么羽毛从蓝色变成了灰色,甚至有时脸上出现了人类的五官特征。配角权重大,主角特

#人工智能
基于AI Agent的童话编剧与绘本生成器(四)与后端接入:从独立模块到可服务化系统

这一篇,我将独立的图像生成模块成功地集成到了后端服务中。分层解耦:LLM 输出 → 适配层 → 执行层 → 图像核心,每层只关心自己的契约。内部接口标准化:图像模块返回统一的字典,执行层根据这个结果进行后续操作,避免了接口歧义。目录隔离:通过临时覆盖配置,每个故事的图片和参考图都放在独立的目录中。动态导入:使得图像模块可以独立演进。优雅降级:即使图像生成失败,故事文字服务仍然可用。

#人工智能
基于AI Agent的童话编剧与绘本生成器(四)与后端接入:从独立模块到可服务化系统

这一篇,我将独立的图像生成模块成功地集成到了后端服务中。分层解耦:LLM 输出 → 适配层 → 执行层 → 图像核心,每层只关心自己的契约。内部接口标准化:图像模块返回统一的字典,执行层根据这个结果进行后续操作,避免了接口歧义。目录隔离:通过临时覆盖配置,每个故事的图片和参考图都放在独立的目录中。动态导入:使得图像模块可以独立演进。优雅降级:即使图像生成失败,故事文字服务仍然可用。

#人工智能
基于 AI Agent 的童话编剧与绘本生成器(五)双流编剧、出图 Prompt 优化与工程化落地

然后对该页单独走 build_page_payloads_from_story + render_story_images。scripting 调故事编剧,storyboarding 调 build_page_payloads_from_story(内部优先走出图 Agent),imaging 调 render_story_images。接入后端后,出图相关函数叠了好几层:try_render_s

#人工智能
基于 AI Agent 的童话编剧与绘本生成器(六)多角色分镜、出图 RAG 与语料冷启动

第五篇结尾我写了下篇计划——出图 RAG 语料建设。这篇就把这件事落地,同时把多角色分镜从「只有主角」扩展到「全书多名配角、每页选 1~2 人出镜」。

#人工智能#windows
基于 AI Agent 的童话编剧与绘本生成器(五)双流编剧、出图 Prompt 优化与工程化落地

然后对该页单独走 build_page_payloads_from_story + render_story_images。scripting 调故事编剧,storyboarding 调 build_page_payloads_from_story(内部优先走出图 Agent),imaging 调 render_story_images。接入后端后,出图相关函数叠了好几层:try_render_s

#人工智能
基于 AI Agent 的童话编剧与绘本生成器(五)双流编剧、出图 Prompt 优化与工程化落地

然后对该页单独走 build_page_payloads_from_story + render_story_images。scripting 调故事编剧,storyboarding 调 build_page_payloads_from_story(内部优先走出图 Agent),imaging 调 render_story_images。接入后端后,出图相关函数叠了好几层:try_render_s

#人工智能
基于AI Agent的童话编剧与绘本生成器(二)单角色一致性完善与相似性检测

在上一篇博客中,我完成了Stable Diffusion的环境搭建和ControlNet的初步调用,实现了“给定一段提示词,生成一张图片”的基础功能。但很快,一个更棘手的问题浮出水面:同一个主角,在不同页面中长得不一样。第一页的小男孩是棕色短发、蓝色眼睛,第二页可能变成了黑色头发、棕色眼睛。虽然ControlNet的IP-Adapter已经提供了一定的身份锚定,但它不是万能的。模型的随机性、提示词

#人工智能
    共 14 条
  • 1
  • 2
  • 请选择