今天给大家演示一个 多模态 Coze 工作流,它结合了文本生成、图像生成、音频合成和视频草稿创建的功能,能够实现从输入主题到输出完整视频草稿的全流程自动化。整个流程不仅依赖大模型进行文案和标题的生成,还通过循环节点批量生成图片描述词、图像、音频配音以及图生视频描述词,最终利用代码节点和剪映插件完成草稿的合成与输出。这样,用户可以一键生成可直接用于视频创作的成品草稿,极大提高创作效率。

工作流介绍

这个工作流以 大模型为核心驱动,配合循环控制、音视频合成插件和代码逻辑,完成从文案策划、标题生成到图片、音频、视频的多模态内容生成。最终通过剪映助手插件创建视频草稿,实现字幕、音频、特效和背景音乐的统一整合,形成一个完整的视频制作流程。

在这里插入图片描述

核心模型

在这个工作流中,核心模型主要承担了文案生成、标题拟写、图片描述词生成以及图生视频描述词推导等任务。不同节点分别调用不同的大语言模型或专用推理模型,保证了文本与视觉素材的一致性和专业性。

模型名称 说明
DeepSeek-V3-0324 用于根据输入主题生成养生类风格的文案
豆包·工具调用 用于标题生成、图片描述词生成、图生视频描述词生成等任务,保证简洁高效

Node节点

整个工作流由多个 Node 节点组成,每个节点对应特定的功能模块。从文案生成到素材整合,再到最终的草稿创建,这些节点相互衔接,确保工作流的完整性与自动化。

节点名称 说明
生成文案 基于输入主题生成养生文案
拟写标题 根据生成文案提炼简短标题
循环生成图片描述词 批量生成可用于 AI 绘图的描述词
批量画图 利用图像生成模型批量生成水墨风格图像
循环配音 调用语音合成接口,将文案转化为音频
获取音频时长 根据音频链接提取时长信息
生成图生视频描述词 基于文案和图片描述词生成图生视频所需的描述
组合结构代码 将生成的素材整合为可用的剪映草稿结构
剪映助手(create_draft / add_videos / add_captions / add_effects / add_audios) 创建草稿并批量添加视频、字幕、特效和音频

工作流程

整个工作流遵循从 文案生成 → 素材扩展 → 多模态合成 → 视频草稿创建 的完整链路。首先通过大模型生成核心文案与标题,然后利用循环节点批量生成图像描述词和图生视频描述词,配合图像生成与配音节点,逐步产出图像和音频素材。接着,通过代码节点将所有素材组合为结构化数据,最后调用剪映助手插件批量添加视频、字幕、特效和背景音乐,完成草稿的自动生成。这种流程化设计保证了创作的高效性和一致性。

流程序号 流程阶段 工作描述 使用节点
1 文案与标题生成 输入主题后生成完整文案,并提炼标题 生成文案、拟写标题
2 图像描述扩展 循环生成图像描述词,确保丰富的视觉素材来源 循环生成图片描述词
3 图像生成 批量生成水墨风格图像素材 批量画图(图像生成)
4 配音与时长获取 将文案转化为音频,同时提取时长以便后续同步 循环配音、获取音频时长
5 视频描述生成 基于文案和图片描述词生成图生视频所需的动作与场景描述 生成图生视频描述词
6 素材整合 整合文案、音频、图像和视频信息,形成结构化素材数据 组合结构代码
7 草稿创建 调用剪映助手依次完成草稿创建、视频添加、字幕生成、特效叠加及背景音乐设置 create_draft、add_videos、add_captions、add_effects、add_audios

大模型应用

文案生成模型

该大模型的任务是基于输入主题生成符合养生风格的文案。它通过设置角色为“资深古医”,在语言风格和结构上突出简洁、实用和亲切感,确保生成的文案既具备专业性,又能让大众轻松理解和接受。

节点名称 Prompt信息 说明
生成文案(DeepSeek-V3-0324) 请根据{{title}}来写文案

# 角色
你是一位资深古医,擅长根据编写养身方法。

## 训练词设计
简洁明了:句子短小精悍,易于记忆。

通俗易懂:使用大众熟悉的词汇,避免复杂术语。

实用性强:提供具体、可操作的养生建议。

## 语气设计
权威感:语气坚定,给人一种可信赖的感觉。

亲切感:像长辈或朋友一样温和提醒,不显得生硬。

节奏感:句子有节奏感,读起来流畅自然。

正能量:传递积极、健康的理念,避免负面情绪。

## 内容结构
中间建议:提供具体的养生方法或行为指导。
结尾总结:用简短的话总结好处或提醒注意事项。

## 示例结构:
……(目标),必须……(方法)。
……(目标),……(建议)。
……(目标),……(行为),……(好处)。
通过角色设定与语气风格约束,生成具有古医特色、简洁实用的养生类文案,作为后续内容生成的基础。

标题生成模型

该大模型的职责是从完整文案中提炼标题,确保标题简短有力,符合传播需求。它限制标题不超过 10 个字,专注于提升视频或内容的吸引力。

节点名称 Prompt信息 说明
拟写标题(豆包·工具调用) 请根据{{input}}拟写标题

# 角色
你是一位全能文本解读师,擅长给内容拟写标题

# 限制
只需要输出一个标题,标题长度不要超过10个字

# 案例输出
《养身大教堂》
用于将冗长的文案压缩成简洁直观的标题,增强作品的传播力和吸引力。

图像描述词生成模型

该大模型的任务是基于文案内容生成适用于 AI 绘图的简短描述词,要求控制在 50 字以内,主要为后续生成水墨风格图像提供语义支撑。

节点名称 Prompt信息 说明
图片描述词生成(豆包·工具调用) 请根据{{input}}生成图片描述词

# 角色
你是一个AI绘图描述词生成家,擅长生成作用于AI绘画的描述词,主要绘制诗词背景图

# 限制
描述词要求简短,不要超过50个字

# 要求
请根据我提供的文本,创作AI绘画的描述词,该描述词用于绘制
提供面向 AI 绘画的高质量描述词,使生成的图像更符合文案内容的意境和风格。

图生视频描述生成模型

该大模型专注于将文案和图像描述词进一步转化为图生视频的专业描述词,目标是生成能驱动视频合成的行为动作和场景内容。

节点名称 Prompt信息 说明
图生视频描述词生成(豆包·工具调用) 文案:{{text}}
图片描述词:{{prompt}}

# 角色
你是一个AI图生视频专家,擅长创作图生视频的描述词

# 技能
根据提供的文案和图片描述词推导出最符合此场景的行为动作,生成一套专业的图生视频的描述词,作用于海螺图生视频

# 限制
只需要生成一套描述词即可
将文案与图像描述整合为专业的图生视频描述词,为后续视频合成提供语义驱动。

使用方法

开始节点

在工作流的开始节点,主要设置输入字段“title”,它作为整个文案生成的核心主题,被传递至大模型进行文案创作。

字段名 含义 数据类型
title 用户输入的主题,用于驱动文案生成 str.String

结束节点

结束节点的任务是输出最终生成的剪映草稿 URL,作为成品供用户调用或进一步编辑。

字段名 含义 数据类型
draft_url 最终生成的视频草稿链接,供用户在剪映中打开与编辑 创建草稿 - draft_url

应用场景

该工作流广泛适用于 短视频制作、文化内容传播、AI 自动化创作 等领域。通过大模型驱动的多模态生成,它能够为创作者提供完整的内容生产链路,从而节省大量的手工操作时间。在实际应用中,既可以用于养生文化的科普视频,也可拓展至诗词配图、教育内容或品牌宣传,帮助个人创作者和企业快速产出高质量的音视频作品。

应用场景 使用目标 典型用户 展示内容 实现效果
短视频制作 快速生成带有配音、字幕、特效的完整视频草稿 自媒体创作者、短视频工作室 养生文案 + 配图 + 配音 + 背景音乐 一键生成可编辑的成品草稿
文化传播 将古诗词、养生方法转化为多模态内容进行传播 教育机构、文化公众号 文案、图像、配音合成的短视频 内容专业、形式生动,提升传播力
品牌宣传 自动化生成产品介绍或活动视频 企业新媒体团队 产品文案、标题、宣传图像及配音 节省制作成本,快速迭代宣传视频
教育内容 生成教学视频或学习资料的多模态课件 教师、教育工作者 文本讲解、图片示例、音频解说 辅助教学,提升学习体验

开发与应用

更多 AIGC 与 Agent工作流 相关研究学习内容请查阅:

AIGC 与 Agent 工作流应用汇总

更多内容桌面应用开发和学习文档请查阅:

AIGC工具平台Tauri+Django环境开发,支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用

Logo

更多推荐