今天给大家演示一个以 故事生成、标题创作、音频合成与图像生成 为核心的 Coze 工作流。该流程通过多节点协作,完成从文本故事撰写到标题生成,再到音频、字幕和画面内容的自动化生成,最终实现一个完整的多模态内容生产示例。借助大模型的语言与图像能力,用户可以高效创建生动的口播故事、符合平台风格的标题,并将文字转化为音频和画面效果,从而快速构建短视频或多媒体内容。

工作流介绍

这个工作流的整体逻辑是先利用大模型生成故事文案,再通过标题节点和音频优化节点扩展内容,接着进入循环合成音频和图像,最后结合时间线生成字幕与视频元素。整体流程体现了从文字到音视频再到多模态合成的自动化能力。

在这里插入图片描述

核心模型

在这个工作流中,主要依赖大模型来进行故事撰写、标题生成、音频文案优化和画面提示词生成。模型包括 Kimi 以及 豆包·1.5·Pro·32k,它们分别承担语言创作与多模态提示词的构建任务。

模型名称 说明
Kimi 用于故事文案生成与标题创作,负责输出英文口播稿件与 TikTok 风格标题
豆包·1.5·Pro·32k 用于音频文案提炼与画面提示词生成,保证多模态内容统一

Node节点

工作流中涉及多个核心节点,既有大模型节点,也有循环节点与插件节点。大模型节点负责生成故事与提示词,循环节点用于批量生成音频与图片,而插件节点则完成语音合成、字幕生成和时间线处理。整体节点配合,使文字、音频和画面数据能够在不同环节顺畅衔接。

节点名称 说明
Tk故事撰写 基于用户输入关键词生成英文故事口播文案
Tk标题撰写 根据故事文案生成 TikTok 风格标题
音频文案优化 从故事内容中提取并优化音频文案
音频生成(循环+speech_synthesis) 将优化后的文案循环合成为音频
画面提示词描述 基于音频文案生成 3D 欧美动画风格画面提示词
循环生成图片(画面生成) 根据提示词批量生成画面图像
获取时间线audio_timelines 从音频生成对应的时间线数据
时间线_字幕caption_infos 按时间线生成字幕数据
时间线_图片imgs_infos 按时间线为画面生成配套图片数据
时间线_音频audio_infos 结合音频与时间线生成可用于剪辑的音频数据
音频_add_audios 批量将音频添加至视频草稿

工作流程

整个工作流按照“文本生成 → 标题创作 → 音频合成 → 图像生成 → 时间线整合 → 多模态输出”的顺序进行。首先,用户输入关键词后,大模型生成完整的英文故事文案。随后,标题节点提炼并生成符合 TikTok 平台风格的标题。接着,通过音频优化节点清理并提取文案内容,进入循环合成音频,并结合时间线插件生成字幕、图片和音频数据。最后,这些素材统一整合到视频草稿中,形成成品。整个流程实现了文字、音频与图像的闭环生成。

流程序号 流程阶段 工作描述 使用节点
1 故事生成 基于输入关键词生成英文故事口播文案 Tk故事撰写
2 标题创作 结合故事文案生成 TikTok 风格标题 Tk标题撰写
3 文案优化 提取并优化音频文案 音频文案优化
4 音频合成 循环调用语音合成,批量生成音频 音频生成(循环 + speech_synthesis)
5 提示词生成 基于音频文案输出 3D 欧美动画风格提示词 画面提示词描述
6 图像生成 根据提示词循环生成画面图像 循环生成图片(画面生成)
7 时间线生成 从音频提取时间线并匹配画面与字幕 audio_timelines + caption_infos + imgs_infos
8 音频数据生成 按时间线生成音频数据并加入视频草稿 audio_infos + add_audios
9 成品整合 多模态内容统一到视频草稿形成成品 视频草稿插件

大模型应用

故事文案生成节点

在工作流的起点,大模型承担着根据用户输入关键词生成完整英文故事的任务。该节点的设计目标是通过 Prompt 约束,输出适合口播的纯英文故事,语言连贯、逻辑清晰,并严格遵守长度和风格要求。它保证了后续音频和视频生成的核心文本基础。

节点名称 Prompt信息 说明
Tk故事撰写 # 角色
你是一个故事撰写告诉,主要撰写主人和金毛的故事。故事要是纯口播文案。

## 技能
### 技能 1: 生成口播文案
1. 当用户给出关键词后,围绕关键词生成100 - 200字左右、10-20句话、以句号分割的故事口播文案。
2. 文案上下要有逻辑,要连贯,最后一句不需要加句号
3. 文案要是纯英文输出,不得输出汉字。

## 参考故事逻辑:
我有一只非常聪明的金毛寻回犬……(省略示例故事)

## 限制
- 只生成纯口播文案,不添加无关内容。
- 输出的文案应符合口语化表达习惯。
- 文案要是纯英文输出,不得输出汉字。
该节点的 Prompt 明确要求生成以“主人和金毛”为主角的英文故事,强调故事逻辑性和口语化表达,确保生成的文本可以直接应用于口播场景。

标题生成节点

该节点专注于为生成的故事撰写一个符合 TikTok 平台风格的标题。它的任务是通过分析故事主题,结合趣味性和平台受众偏好,输出一个简洁吸引人的标题。这一环节为视频增加传播力和平台适配性。

节点名称 Prompt信息 说明
Tk标题撰写 # 角色
你是一位资深且专业的标题撰写专家,用通俗易懂的语言,为给定的文案量身定制符合Tiktok风格的标题。

## 技能
1. 当用户提供故事相关文案后,深入剖析文案主题、养生受众群体特点以及当下宠物故事热点元素。
2. 依据tiktok平台注重趣味性和吸引力的风格,创作贴合tiktok养生受众喜好的标题。

## 限制
- 仅围绕用户提供的故事文案生成抖音平台的标题,不涉及其他无关内容。
- 标题必须符合tiktok平台注重趣味性和吸引力的风格特点,语言风趣且紧密结合当下养生热点。
- 生成的标题需精准针对养生文案所指向的目标群体,表述通俗易懂。
- 仅生成 1 个标题文案 。
- 标题要以纯英文输出,不得输出汉字。
该节点的 Prompt 明确规定了标题的受众和风格,确保输出的标题既能契合 TikTok 平台规则,又能增强短视频内容的点击率和传播效果。

音频文案优化节点

在故事文案生成后,该节点负责从中提取并优化音频文案。它的目标是聚焦核心内容,保证输出的文案能够直接用于音频合成,并且保持英文纯净性。这是故事转化为音频的关键过渡环节。

节点名称 Prompt信息 说明
音频文案优化 # 角色
你是一个数据解析专家,擅长从数组中精准提取关键信息,能够快速准确地找出每一个数组中的“文案”部分。

## 技能
### 技能 1: 提取文案
1. 当接收到包含数组的信息时,仔细分析每个数组结构。
2. 精准识别并提取出数组中的“文案”部分。
3. 将提取出的“文案”清晰展示给用户。
4. 输出的必须是纯英文文案,不得出现汉字。

## 限制:
- 只专注于从数组中提取“文案”部分,拒绝回答与数组“文案”提取无关的话题。
- 所输出的内容必须清晰展示提取的“文案”,不能偏离此要求。
- 输出的必须是纯英文文案,不得出现汉字。
该 Prompt 设计的重点是确保从输入数据中提炼出音频可用的纯英文内容,避免冗余信息,保证后续语音合成的清晰度和准确性。

画面提示词生成节点

该节点专注于将故事和音频文案转化为画面提示词。它的职责是以 3D 欧美动画风格为标准,生成符合既定人物形象和宠物形象的画面描述。这一环节为后续的图像生成提供了精准、统一的视觉提示。

节点名称 Prompt信息 说明
画面提示词描述 # 角色
你是一位专业且经验丰富的 3D 欧美动画画面提示词生成大师,深入洞悉 3D 欧美动画风格的各种元素与独特之处,能够依据多样的输入信息,精准、高水准地生成对应的画面提示词。

## 技能
### 技能 1: 生成画面提示词
1. 深入剖析用户输入的{{input}}信息,精准提炼其中主题、场景、角色等核心要素。
2. 紧密贴合 3D 欧美动画风格,从画面构图、色彩搭配、光影效果、角色姿态等多个维度,创作出详尽且符合风格要求的画面提示词。
3. 生成的提示词数量与{{input}}数量保持一致。
4. 在生成每个提示词时,务必严格参照既定的人物形象与金毛形象,确保形象始终统一。
5. 每个画面提示词都要生动描述故事场景,细致刻画人物的发型、服装,五官,表情等特征,使画面人物统一且富有故事性。

## 主要任务形象描述
…(省略具体人物与金毛的细致形象描述)

## 限制
- 仅围绕根据输入信息生成 3D 欧美动画风格的画面提示词进行回复,坚决不回答无关话题。
- 输出内容要简洁明了、逻辑清晰,严格契合任务要求。
- 生成的每个提示词都要严格参照人物形象与金毛形象,保证形象统一。
该 Prompt 的重点是生成高质量的画面提示词,确保人物和宠物在不同画面中保持一致性,从而为图像生成奠定坚实基础。

使用方法

开始节点

在开始节点中,用户只需输入关键词作为故事触发条件。输入字段的数据类型为字符串,保证模型能直接调用并生成故事。

字段名 含义 数据类型
input 故事的触发关键词,用于指导故事生成 str.String

结束节点

在结束节点中,工作流会输出完整的多模态草稿数据,包含音频、字幕、图片等素材。最终输出的结果可直接作为视频草稿,用于进一步剪辑或直接发布。

字段名 含义 数据类型
draft_url 生成的视频草稿地址,包含整合的多模态内容 创建草稿 - draft_url

应用场景

该工作流的应用场景聚焦在多模态短视频和新媒体内容的自动化生产。它不仅能帮助创作者快速生成英文口播故事,还能配合生成标题、音频、字幕和图像,从而直接输出符合 TikTok 等短视频平台的成品。典型用户包括短视频运营者、内容创作者、品牌宣传团队等。他们可借助此工作流缩短制作周期,提升内容质量,并在故事性和视觉表现力上实现统一。最终效果是让用户从一个关键词出发,快速获得完整的短视频素材包,直接进入发布或二次编辑环节。

应用场景 使用目标 典型用户 展示内容 实现效果
英文口播短视频制作 从关键词到完整视频的自动化生成 短视频创作者、运营团队 英文口播故事、字幕、音频、图像 快速生成多模态短视频成品
品牌宣传 自动生产故事化视频素材,强化叙事 品牌营销人员 故事口播 + TikTok 标题 + 配套画面 提升品牌故事感染力与传播效率
教育与培训 生成互动式故事视频,增强学习体验 教育机构、培训讲师 英文故事配字幕和画面 辅助语言教学和课堂互动
宠物故事内容创作 自动创作宠物主题短视频 宠物博主、自媒体人 宠物故事文案、语音与图像 打造趣味化、系列化宠物故事视频

开发与应用

更多 AIGC 与 Agent工作流 相关研究学习内容请查阅:

AIGC 与 Agent 工作流应用汇总

更多内容桌面应用开发和学习文档请查阅:

AIGC工具平台Tauri+Django环境开发,支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用

Logo

更多推荐