yu_chen_xiang 个人主页

@yu_chen_xiang

yu_chen_xiang

2024-07-03 20:22:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

基于AI Agent的童话编剧与绘本生成器（三）多角色一致性：从ControlNet到Qwen的迁移

在前两篇博客中，我们基于Stable Diffusion + ControlNet IP-Adapter实现了单角色的稳定生成，并通过分层提示词、解剖学正负向约束以及CLIP+InsightFace的重试闭环，让主角的一致性达到了可用水平。测试结果令人沮丧——第4页的小鸟还算正常，第5页的小鸟要么体型变得和小男孩一样大，要么羽毛从蓝色变成了灰色，甚至有时脸上出现了人类的五官特征。配角权重大，主角特

#人工智能

基于 AI Agent 的童话编剧与绘本生成器（七）出图体验优化与绘本 PDF 导出

第六篇之前，imaging 阶段的进度长时间卡在 80%，前端只显示「正在绘制绘本插图…结果 Qwen 会优先画信息更满的主角，配角容易被画小、画没、或只留一个模糊轮廓——不是参考图没传，而是 prompt 里配角「该怎么站在画面里」没说清楚。每页插图落在对应分镜位置，PDF 和阅读页使用的是同一套。：双角色页为配角补上独立的、带左右位置的 action 描述，告别「配角被画没」；），作为同一思路

基于AI Agent的童话编剧与绘本生成器（三）多角色一致性：从ControlNet到Qwen的迁移

#人工智能

基于AI Agent的童话编剧与绘本生成器（四）与后端接入：从独立模块到可服务化系统

这一篇，我将独立的图像生成模块成功地集成到了后端服务中。分层解耦：LLM 输出 → 适配层 → 执行层 → 图像核心，每层只关心自己的契约。内部接口标准化：图像模块返回统一的字典，执行层根据这个结果进行后续操作，避免了接口歧义。目录隔离：通过临时覆盖配置，每个故事的图片和参考图都放在独立的目录中。动态导入：使得图像模块可以独立演进。优雅降级：即使图像生成失败，故事文字服务仍然可用。

#人工智能

基于AI Agent的童话编剧与绘本生成器（四）与后端接入：从独立模块到可服务化系统

#人工智能

基于 AI Agent 的童话编剧与绘本生成器（五）双流编剧、出图 Prompt 优化与工程化落地

然后对该页单独走 build_page_payloads_from_story + render_story_images。scripting 调故事编剧，storyboarding 调 build_page_payloads_from_story（内部优先走出图 Agent），imaging 调 render_story_images。接入后端后，出图相关函数叠了好几层：try_render_s

#人工智能

基于 AI Agent 的童话编剧与绘本生成器（六）多角色分镜、出图 RAG 与语料冷启动

第五篇结尾我写了下篇计划——出图 RAG 语料建设。这篇就把这件事落地，同时把多角色分镜从「只有主角」扩展到「全书多名配角、每页选 1～2 人出镜」。

#人工智能 #windows

基于 AI Agent 的童话编剧与绘本生成器（五）双流编剧、出图 Prompt 优化与工程化落地

#人工智能

基于 AI Agent 的童话编剧与绘本生成器（五）双流编剧、出图 Prompt 优化与工程化落地

#人工智能

基于AI Agent的童话编剧与绘本生成器（二）单角色一致性完善与相似性检测

在上一篇博客中，我完成了Stable Diffusion的环境搭建和ControlNet的初步调用，实现了“给定一段提示词，生成一张图片”的基础功能。但很快，一个更棘手的问题浮出水面：同一个主角，在不同页面中长得不一样。第一页的小男孩是棕色短发、蓝色眼睛，第二页可能变成了黑色头发、棕色眼睛。虽然ControlNet的IP-Adapter已经提供了一定的身份锚定，但它不是万能的。模型的随机性、提示词

#人工智能

共 14 条

请选择