
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在前两篇博客中,我们基于Stable Diffusion + ControlNet IP-Adapter实现了单角色的稳定生成,并通过分层提示词、解剖学正负向约束以及CLIP+InsightFace的重试闭环,让主角的一致性达到了可用水平。测试结果令人沮丧——第4页的小鸟还算正常,第5页的小鸟要么体型变得和小男孩一样大,要么羽毛从蓝色变成了灰色,甚至有时脸上出现了人类的五官特征。配角权重大,主角特
第六篇之前,imaging 阶段的进度长时间卡在 80%,前端只显示「正在绘制绘本插图…结果 Qwen 会优先画信息更满的主角,配角容易被画小、画没、或只留一个模糊轮廓——不是参考图没传,而是 prompt 里配角「该怎么站在画面里」没说清楚。每页插图落在对应分镜位置,PDF 和阅读页使用的是同一套。:双角色页为配角补上独立的、带左右位置的 action 描述,告别「配角被画没」;),作为同一思路
在前两篇博客中,我们基于Stable Diffusion + ControlNet IP-Adapter实现了单角色的稳定生成,并通过分层提示词、解剖学正负向约束以及CLIP+InsightFace的重试闭环,让主角的一致性达到了可用水平。测试结果令人沮丧——第4页的小鸟还算正常,第5页的小鸟要么体型变得和小男孩一样大,要么羽毛从蓝色变成了灰色,甚至有时脸上出现了人类的五官特征。配角权重大,主角特
这一篇,我将独立的图像生成模块成功地集成到了后端服务中。分层解耦:LLM 输出 → 适配层 → 执行层 → 图像核心,每层只关心自己的契约。内部接口标准化:图像模块返回统一的字典,执行层根据这个结果进行后续操作,避免了接口歧义。目录隔离:通过临时覆盖配置,每个故事的图片和参考图都放在独立的目录中。动态导入:使得图像模块可以独立演进。优雅降级:即使图像生成失败,故事文字服务仍然可用。
这一篇,我将独立的图像生成模块成功地集成到了后端服务中。分层解耦:LLM 输出 → 适配层 → 执行层 → 图像核心,每层只关心自己的契约。内部接口标准化:图像模块返回统一的字典,执行层根据这个结果进行后续操作,避免了接口歧义。目录隔离:通过临时覆盖配置,每个故事的图片和参考图都放在独立的目录中。动态导入:使得图像模块可以独立演进。优雅降级:即使图像生成失败,故事文字服务仍然可用。
然后对该页单独走 build_page_payloads_from_story + render_story_images。scripting 调故事编剧,storyboarding 调 build_page_payloads_from_story(内部优先走出图 Agent),imaging 调 render_story_images。接入后端后,出图相关函数叠了好几层:try_render_s
第五篇结尾我写了下篇计划——出图 RAG 语料建设。这篇就把这件事落地,同时把多角色分镜从「只有主角」扩展到「全书多名配角、每页选 1~2 人出镜」。
然后对该页单独走 build_page_payloads_from_story + render_story_images。scripting 调故事编剧,storyboarding 调 build_page_payloads_from_story(内部优先走出图 Agent),imaging 调 render_story_images。接入后端后,出图相关函数叠了好几层:try_render_s
然后对该页单独走 build_page_payloads_from_story + render_story_images。scripting 调故事编剧,storyboarding 调 build_page_payloads_from_story(内部优先走出图 Agent),imaging 调 render_story_images。接入后端后,出图相关函数叠了好几层:try_render_s
在上一篇博客中,我完成了Stable Diffusion的环境搭建和ControlNet的初步调用,实现了“给定一段提示词,生成一张图片”的基础功能。但很快,一个更棘手的问题浮出水面:同一个主角,在不同页面中长得不一样。第一页的小男孩是棕色短发、蓝色眼睛,第二页可能变成了黑色头发、棕色眼睛。虽然ControlNet的IP-Adapter已经提供了一定的身份锚定,但它不是万能的。模型的随机性、提示词







