logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于AI Agent的童话编剧与绘本生成器(四)与后端接入:从独立模块到可服务化系统

这一篇,我将独立的图像生成模块成功地集成到了后端服务中。分层解耦:LLM 输出 → 适配层 → 执行层 → 图像核心,每层只关心自己的契约。内部接口标准化:图像模块返回统一的字典,执行层根据这个结果进行后续操作,避免了接口歧义。目录隔离:通过临时覆盖配置,每个故事的图片和参考图都放在独立的目录中。动态导入:使得图像模块可以独立演进。优雅降级:即使图像生成失败,故事文字服务仍然可用。

#人工智能
基于AI Agent的童话编剧与绘本生成器(四)与后端接入:从独立模块到可服务化系统

这一篇,我将独立的图像生成模块成功地集成到了后端服务中。分层解耦:LLM 输出 → 适配层 → 执行层 → 图像核心,每层只关心自己的契约。内部接口标准化:图像模块返回统一的字典,执行层根据这个结果进行后续操作,避免了接口歧义。目录隔离:通过临时覆盖配置,每个故事的图片和参考图都放在独立的目录中。动态导入:使得图像模块可以独立演进。优雅降级:即使图像生成失败,故事文字服务仍然可用。

#人工智能
基于AI Agent的童话编剧与绘本生成器(三)多角色一致性:从ControlNet到Qwen的迁移

在前两篇博客中,我们基于Stable Diffusion + ControlNet IP-Adapter实现了单角色的稳定生成,并通过分层提示词、解剖学正负向约束以及CLIP+InsightFace的重试闭环,让主角的一致性达到了可用水平。测试结果令人沮丧——第4页的小鸟还算正常,第5页的小鸟要么体型变得和小男孩一样大,要么羽毛从蓝色变成了灰色,甚至有时脸上出现了人类的五官特征。配角权重大,主角特

#人工智能
基于AI Agent的童话编剧与绘本生成器(三)多角色一致性:从ControlNet到Qwen的迁移

在前两篇博客中,我们基于Stable Diffusion + ControlNet IP-Adapter实现了单角色的稳定生成,并通过分层提示词、解剖学正负向约束以及CLIP+InsightFace的重试闭环,让主角的一致性达到了可用水平。测试结果令人沮丧——第4页的小鸟还算正常,第5页的小鸟要么体型变得和小男孩一样大,要么羽毛从蓝色变成了灰色,甚至有时脸上出现了人类的五官特征。配角权重大,主角特

#人工智能
基于AI agent的童话编剧与绘本生成器(一)环境搭建与SD生成图像初步实现

环境搭建:Stable Diffusion WebUI 本地部署,ToonYou 模型配置,ControlNet IP-Adapter 安装,API 服务启动代码架构:config(配置管理)、generator(核心生成逻辑)、Image_generator(对外接口)、test(测试验证)四个模块分层清晰基础功能:单张图像生成、角色参考图上传与管理、ControlNet 初步集成、批量生成接口

#人工智能
基于AI Agent的童话编剧与绘本生成器(二)单角色一致性完善与相似性检测

在上一篇博客中,我完成了Stable Diffusion的环境搭建和ControlNet的初步调用,实现了“给定一段提示词,生成一张图片”的基础功能。但很快,一个更棘手的问题浮出水面:同一个主角,在不同页面中长得不一样。第一页的小男孩是棕色短发、蓝色眼睛,第二页可能变成了黑色头发、棕色眼睛。虽然ControlNet的IP-Adapter已经提供了一定的身份锚定,但它不是万能的。模型的随机性、提示词

#人工智能
基于AI agent的童话编剧与绘本生成器(一)环境搭建与SD生成图像初步实现

环境搭建:Stable Diffusion WebUI 本地部署,ToonYou 模型配置,ControlNet IP-Adapter 安装,API 服务启动代码架构:config(配置管理)、generator(核心生成逻辑)、Image_generator(对外接口)、test(测试验证)四个模块分层清晰基础功能:单张图像生成、角色参考图上传与管理、ControlNet 初步集成、批量生成接口

#人工智能
到底了