腾讯开源 ScriptAgent:三个 AI 智能体协作,把对话直接变成电影级视频

快速摘要:腾讯混元多模态团队联合西安电子科技大学,开源了一套名为 ScriptAgent 的"对话到电影视频"智能体框架。它的核心思路是用三个专职 AI Agent——编剧(ScripterAgent)、导演(DirectorAgent)、评审(CriticAgent)——模拟真实影视制作流水线,把几句简单的角色对话自动扩写成专业分镜剧本,再由 AI 导演拆分场景、锚定帧画面,最终生成一段连贯的长视频。实测中,AI 评分从 4.2 提升到 4.5,人类专家评分从 3.7 提升到 4.2。 往下看,有完整的技术原理拆解、数据集构建细节、训练流程,以及对普通创作者的实际启发。

一、当前 AI 视频生成的核心痛点在哪里

过去两年,视频生成领域涌现了一批令人惊艳的模型。无论是 OpenAI 的 Sora 系列、Google DeepMind 的 Veo 系列,还是腾讯自家的 HunyuanVideo、开源社区的 Wan 系列,只要给出一句简短的文字描述,就能生成画面精致、运动流畅的短视频片段。

但"短视频"这三个字恰恰暴露了问题。当前主流模型的有效生成窗口大多在 8 到 12 秒之间,一旦你想用它们来讲一个完整的故事,麻烦就来了:

  • 角色的身份和外貌会在不同片段之间发生漂移,前一个镜头还是短发,下一个镜头可能就变成了长发。
  • 场景和空间布局难以保持一致,客厅和卧室的切换毫无逻辑。
  • 多个短片拼接在一起后,叙事节奏断裂,观众很难看出这是"一个故事"。

归根结底,这些模型擅长的是"画面渲染",而不是"叙事执行"。它们缺少一根将所有画面串起来的主线——也就是影视行业里最核心的东西:剧本。

希区柯克曾经说过一句在导演圈广为流传的话,大意是拍好一部电影需要三样东西:剧本、剧本,还是剧本。人类导演拿到一段对话,脑子里会自动补全大量画面信息——该用什么景别、镜头怎么运动、光线氛围怎么搭配、角色在场景里如何站位、情绪该如何推进。但现有的视频生成模型只能看到原始对话里那几个干巴巴的词,很难把这些复杂的电影语言补出来。这中间横亘着一道巨大的"语义鸿沟"。

腾讯这次开源的 ScriptAgent 框架,就是要在"简单对话"和"电影画面"之间架起一座桥。


二、ScriptAgent 的整体架构:模拟一支完整的影视制作团队

ScriptAgent 的设计灵感来源于真实的电影制作流程。一部电影从文字到画面,需要编剧写剧本、导演执行拍摄、制片人和评审把关质量。这个框架用三个各司其职的 AI 智能体来模拟这个过程:

ScripterAgent(编剧智能体) 负责将粗粒度的角色对话转化为细粒度的、可执行的专业分镜剧本。剧本中包含每个镜头的景别(全景、中景、特写等)、摄影机运动方式(推、拉、摇、移)、角色动作与表情、场景环境描述、光线氛围等详细信息。

DirectorAgent(导演智能体) 拿到编剧生成的剧本后,负责将其拆分为多个可拍摄的片段,并调用底层视频生成模型逐段生成画面,同时通过帧锚定等技术手段保证片段之间的视觉连续性,最终拼出一段连贯的长视频。

CriticAgent(评审智能体) 从技术和艺术两个维度对剧本和视频进行评分,确保最终输出达到专业水准。它既检查格式、结构等硬指标,也评估戏剧张力、角色一致性、叙事节奏等软指标。

三个智能体构成了一条完整的流水线:对话输入 → 编剧扩写剧本 → 导演执行拍摄 → 评审把关质量 → 输出成片。这种分工协作的 Agent 架构,是整个框架最有价值的设计理念。


三、编剧智能体(ScripterAgent):从对话到专业剧本的全过程

编剧智能体是整个框架的核心引擎。它要解决的问题本质上是一种"创造性推理":从寥寥几句对话中,推断出完整的场景设定、角色行为、镜头语言和情感节奏。

3.1 ScriptBench:一个专门训练编剧 AI 的大规模数据集

要让 AI 学会写剧本,首先得有足够多的优质样本来教它。团队为此构建了一个名为 ScriptBench 的大规模数据集,从高保真的电影级过场动画中提取素材。这些素材之所以被选中,是因为它们具备丰富的对话、专业的镜头语言和高度一致的视觉质量,非常接近真实的电影制作水准。

最终的数据集包含 1750 个完整的剧本实例,每个实例都配备了对话文本、音频信号和角色空间位置信息三种模态。平均每个视频片段时长约 15.4 秒,这个长度经过精心设计——既足够承载一段完整的叙事片段,又不会超出当前视频模型的生成能力上限。

3.2 数据标注的三阶段流水线

ScriptBench 的标注过程分为三个阶段,每个阶段都有明确的任务和质量标准:

第一阶段:上下文重建与对话融合。 标注系统首先对多模态输入进行联合分析。它将文本对话和语音音频结合起来,推断角色关系(谁在跟谁说话)、场景设定(对话发生在哪里)、情节走向(剧情在往什么方向发展)以及说话人的情绪和意图。这个阶段的目标是把零散的信号融合成一个连贯的叙事背景,让那些对话中隐含的因果关系变得清晰明确。

第二阶段:镜头级语义规划。 有了完整的上下文之后,系统开始按照四条约束原则来规划镜头分割:

  • 镜头完整性——每个镜头是一个自含单元,只在明确的摄影机切换或场景变化时才引入剪切点;
  • 时长适配——单个镜头不超过 10 秒,以匹配下游视频模型的生成限制;
  • 语义连贯——剪切点对齐叙事的自然过渡节点,比如情绪转折或话题切换;
  • 技术可行性——避免在复杂的摄影机运动过程中进行分割,优先在静态机位处切分。

这四条原则确保分割出来的每个镜头既有独立的叙事意义,又在技术上适合后续生成。

第三阶段:多轮自适应纠错。 最后,系统执行多轮迭代检查来修正错误。具体包括四个验证模块:对话完整性检查(确保所有台词都被正确标注,未遗漏)、角色外观一致性检查(角色的衣着、发型等描述前后不矛盾)、场景连贯性检查(场景切换有合理的叙事依据)、以及空间逻辑检查(角色不会出现瞬移等物理不合理的情况)。

据论文披露,专业顾问对数据集中约 60% 的内容进行了抽样审查,最终 94% 的剧本达到了专业制作水准。这个通过率说明标注流水线的质量控制是比较扎实的。

3.3 两阶段训练:先学规矩,再练灵气

有了高质量的数据集,接下来就是训练编剧智能体。团队设计了一个两阶段的训练方案,思路非常清晰:

第一阶段:监督微调(SFT),学习结构能力。 这个阶段的目标是让模型掌握剧本的基本格式和结构规范。就像学写作文先得知道"起承转合"的框架一样,编剧 AI 需要先学会什么是景别、什么是摄影机运动、剧本里应该包含哪些要素、每个镜头的描述该怎么组织。通过在 ScriptBench 上做监督微调,模型能够输出格式正确、结构完整的剧本初稿。

第二阶段:强化学习(GRPO),提升艺术水准。 光有规矩还不够,好剧本还需要灵气——合适的镜头节奏、恰到好处的张力铺垫、有想象力的画面构思。团队采用了 Group Relative Policy Optimization(GRPO)这种强化学习算法来实现这一目标。

GRPO 阶段的关键在于它的混合奖励函数设计。这个奖励信号由两部分组成:一部分来自自动化检查,用规则验证剧本格式是否正确、镜头时长是否合规、对话是否完整等硬性指标;另一部分来自资深艺术总监的人工打分,评估剧本的戏剧张力、视觉想象力、节奏把控等软性指标。两路信号加权组合后,作为强化学习的奖励反馈,引导模型不断优化输出。

这个设计的巧妙之处在于,它让 AI 同时兼顾了"技术正确性"和"艺术表现力"。最终实验结果显示,经过 GRPO 训练的模型在专业导演评审中获得了更高的戏剧张力分数(4.1 对比基线的 3.7)和视觉想象力分数(4.3 对比 3.8)。

用一段伪代码来概括编剧智能体的工作流程:

输入: 角色对话文本 + 音频 + 角色位置信息

Step 1: 上下文理解
  → 分析对话内容,推断角色关系、场景设定、情绪意图

Step 2: 镜头规划
  → 根据叙事节奏拆分镜头,每个镜头 ≤ 10 秒
  → 确定每个镜头的景别、摄影机运动、角色动作

Step 3: 生成完整分镜剧本
  → 输出结构化剧本,包含场景描述、角色外观、
     镜头类型、摄影机指令、对话标注等

Step 4: 多轮纠错
  → 检查对话完整性、角色一致性、场景连贯性、空间逻辑

输出: 可执行的电影分镜剧本

四、导演智能体(DirectorAgent):让长视频真正连贯起来

有了好剧本,还得有好导演来执行。DirectorAgent 要解决的核心问题是:当前视频生成模型只能输出几秒到十几秒的短片段,如何把这些短片段串联成一段叙事连贯、视觉一致的长视频?

4.1 智能镜头分割策略

DirectorAgent 首先根据编剧输出的剧本,将长叙事拆分为多个可独立生成的镜头片段。但这个拆分不是简单地按固定时长切断,而是遵循电影剪辑的逻辑:在剧情的自然断点处切分——比如一句台词说完的时刻、情绪发生明显变化的节点、或者场景空间转换的位置。

分割时同样考虑技术约束:每个片段的时长不超过底层模型的有效生成窗口,同时预留一定的缓冲区间以保证尾帧质量。这种基于语义的智能分割策略,让拆分出来的片段既符合模型能力,又不会破坏叙事的完整性。

4.2 帧锚定机制:接力赛式的画面衔接

帧锚定(Frame Anchoring)是导演智能体最核心的技术创新。它的原理非常直观:上一个片段的最后一帧,作为下一个片段生成的视觉起点。

这就像接力赛的交接棒——前一棒选手把棒递到什么位置,后一棒选手就从那个位置开始跑。具体到视频生成中,最后一帧携带了当前场景的所有视觉信息:角色的外貌和着装、身体姿态、场景布局、光线条件等。将这一帧作为下一个片段的条件输入(通常使用图生视频模式),能够有效约束新片段的视觉起点,大幅降低角色身份漂移和场景跳变的概率。

同时,DirectorAgent 还会在每个片段的文本提示词中显式加入连续性指令,强调角色外观、服装、场景元素等需要与前一片段保持一致。文本提示和视觉锚定双管齐下,将长视频生成这个复杂问题拆解成了一系列"保持连续性的子问题"。

用流程图来理解这个过程:

剧本镜头 1 → 视频生成模型 → 片段 1 → 提取最后一帧
                                           ↓
剧本镜头 2 + 锚定帧 → 视频生成模型 → 片段 2 → 提取最后一帧
                                                    ↓
剧本镜头 3 + 锚定帧 → 视频生成模型 → 片段 3 → ...
                                           ↓
最终拼接 → 完整长视频

4.3 实际效果与当前局限

实验数据表明,帧锚定策略在减少角色身份漂移和场景布局不一致方面效果显著。使用这种方法生成的长视频,在主体一致性和背景连贯性上都有明显提升。

不过,团队也坦诚地指出了当前的局限:在精细的唇形同步(lip-sync)和复杂运动对齐方面,帧锚定机制还有提升空间。这主要是因为仅靠尾帧锚定无法完全控制片段内部的动态变化,更细粒度的运动控制还需要底层视频模型本身能力的进步来支撑。


五、评审智能体(CriticAgent):AI 时代的"质检流水线"

在真实的影视工业中,一部片子从粗剪到成片需要经过多轮审片和修改。CriticAgent 就扮演了这个角色,它建立了一套多维度的评估体系来给剧本和视频打分。

5.1 剧本评估维度

对编剧智能体输出的剧本,CriticAgent 主要检查以下方面:结构完整性(格式是否规范、要素是否齐全)、镜头分割合理性(切分点是否自然、时长是否合规)、叙事细节丰富度(描述是否足够具体、是否能指导拍摄执行)、以及视觉叙事逻辑(画面安排是否与对话内容匹配)。

5.2 视频评估维度

对导演智能体输出的视频,评估要更加细致。CriticAgent 会从多个角度进行审视:

  • 摄影机运动是否有目的性和表现力(不是随意晃动,而是为叙事服务);
  • 角色的肢体语言和空间位置是否与剧本描述一致;
  • 角色外貌、服装等视觉细节在不同镜头间是否保持稳定;
  • 面部表情和微表情是否与角色的情绪状态匹配;
  • 叙事节奏——镜头切换的频率、动作与停顿的比例——是否符合剧本预设的韵律。

5.3 VSA 指标:量化视频与剧本的时间对齐度

团队还提出了一个新的自动化评估指标叫做 VSA(Visual-Script Alignment,视觉-剧本对齐度)。传统的评估指标通常只检查"视频里是否出现了剧本描述的内容",但不关心出现的时机。VSA 则更进一步,它会检测剧本中描述的每个视觉事件是否在对应的时间窗口内出现。这个指标能更精确地衡量视频对剧本的执行精度。

在实验中,使用编剧智能体生成的剧本作为输入后,所有被测视频模型的 VSA 分数都有超过 7 个百分点的提升,说明结构化剧本确实能帮助视频模型生成更加时序一致的内容。

除了 AI 评审之外,整个评估体系还引入了专业人类评审——包括有导演和编剧背景的从业者——进行独立打分,确保评估结果的可信度。


六、实验结果:在七个主流视频模型上的验证

团队将 ScriptAgent 框架与七个当前主流的视频生成模型进行了配合测试,包括 Sora2-Pro(OpenAI)、Veo3.1(Google DeepMind)、HunyuanVideo 1.5(腾讯)、Wan2.5 / Wan2.6 等。关键发现如下:

结构化剧本普遍提升了视频质量。 不论底层使用哪个视频模型,将编剧智能体生成的剧本作为输入(替代原始对话),都带来了全面的提升。汇总数据显示,AI 评审的平均分从 4.2 上升到 4.5,人类评审的平均分从 3.7 上升到 4.2。剧本忠实度(Script Faithfulness)的提升尤为明显,最高达到 0.4 分。

不同模型存在"视觉奇观 vs 剧本忠实"的权衡取舍。 这是一个很有意思的发现。以 Sora2-Pro 为例,它在视觉美感和物理规律遵循方面得分较高,画面效果非常震撼,但在严格按照剧本执行方面表现一般。而 HunyuanVideo 1.5 则在叙事完整性和剧本忠实度上表现更好,更适合对话密集或情感细腻的场景。这个发现对实际应用很有指导意义:如果你要拍一个动作大场面,可以优先选择视觉表现力强的模型;如果你要拍一段情感戏,则更适合选择剧本执行力强的模型。

剧本驱动的方法显著增强了画面的动态感。 一个常见问题是,对话场景生成出来往往是"对话头像"模式——两个角色面对面说话,画面几乎没有变化。使用结构化剧本后,由于剧本中包含了丰富的镜头运动和角色动作指令,生成的视频明显更加生动,有了真正的"电影感"。


七、对普通创作者意味着什么

我之前在黑龙江节点云计算科技公司参加人工智能训练师考核学习的时候,接触过不少 AI 工具链的实操案例。当时就感觉到,AI 辅助创作正在从单点工具走向系统化的工作流。ScriptAgent 这个项目就是一个很好的例证。

对于没有影视专业背景的普通创作者来说,这个框架带来的启示至少有几点:

降低了"创意到成片"的门槛。 以前你想拍一个短视频,即使用 AI 生成画面,你也得自己写提示词、自己规划镜头、自己处理片段拼接的连续性问题。ScriptAgent 把这些中间环节交给了 AI 编剧和 AI 导演来处理,你只需要提供最原始的素材——角色之间的对话。

多 Agent 协作是一种值得关注的范式。 这种"把一个复杂任务拆分成多个专业角色,让不同的 AI 智能体分工协作"的设计思路,不仅适用于视频生成,也适用于很多其他内容创作场景。比如写一篇长文,可以有一个 Agent 负责大纲、一个负责正文、一个负责润色和事实核查。理解这种架构思维,对于用好 AI 工具很有帮助。

剧本仍然是内容创作的灵魂。 即使在 AI 时代,好内容的核心依然是好故事。ScriptAgent 的整个设计哲学就建立在"剧本为王"的基础上。技术再强大,如果没有一个好的叙事框架来组织画面,生成出来的东西也只是好看但空洞的视觉碎片。


八、开源资源与技术细节速查

ScriptAgent 项目的开源地址:

https://github.com/Tencent/digitalhuman/tree/main/ScriptAgent

对应的学术论文(arXiv 预印本):

https://arxiv.org/abs/2601.17737

论文标题:The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

主要技术栈和关键词速查:

组件

核心技术

作用

ScripterAgent

SFT + GRPO 强化学习

对话 → 分镜剧本

DirectorAgent

帧锚定 + 跨场景连续生成

剧本 → 连贯长视频

CriticAgent

多维评估 + VSA 指标

质量评审与反馈

ScriptBench

1750 个实例,三阶段标注

训练数据集

底层模型

兼容 Sora2-Pro、Veo3.1、HYVideo1.5 等

实际画面生成


九、当前局限与未来方向

任何技术方案都有它的边界,ScriptAgent 也不例外。根据论文和团队公开的信息,目前主要存在以下待优化的地方:

唇形同步精度不够。 在对话场景中,角色的嘴部运动与语音内容的匹配还不够精细。这个问题本质上受限于底层视频模型的能力,需要模型在训练时引入更强的语音-视觉对齐机制。

复杂运动的控制力有限。 帧锚定主要解决的是相邻片段之间的视觉连续性问题,但对于片段内部的复杂运动轨迹(比如一个角色在镜头中走了一个复杂路线),当前的控制力还不够精确。

风格多样性有待拓展。 目前框架主要在写实风格的电影场景上进行了验证,对于动画风格、纪录片风格等其他影视类型的支持还需要进一步探索。

生成速度和算力成本。 多 Agent 协作意味着流水线更长,加上底层视频模型本身的推理开销,整个生成过程的时间和算力成本还比较高。这一点对于个人创作者来说是一个实际的门槛。如果你的设备只有消费级显卡,跑完整个流水线可能需要较长的等待时间。

团队表示后续会在唇形同步、多风格支持、以及整体效率优化等方向持续迭代。从技术路线来看,结合轻量化推理加速方案(比如 HunyuanVideo 1.5 的 SSTA 注意力机制已经在降低推理成本方面做了不少工作),未来这些瓶颈有望逐步缓解。


附:理解 ScriptAgent 的几个关键概念

如果你对上文中提到的一些技术术语不太熟悉,这里做一个简要的补充说明,帮助非专业背景的读者更好地理解。

SFT(Supervised Fine-Tuning,监督微调) 是一种常见的大模型训练方法。通俗来说,就是拿一批"标准答案"去训练模型,让模型学会模仿这些答案的格式和内容。在 ScriptAgent 中,SFT 阶段使用的是 ScriptBench 里那些经过专业标注的剧本样本,让模型学会"一份合格的分镜剧本长什么样子"。

GRPO(Group Relative Policy Optimization,分组相对策略优化) 是 DeepSeek 团队在数学推理研究中提出的一种强化学习算法。它的核心思想是:对于同一个输入,让模型生成多个不同的输出,然后在这组输出内部进行相对排序——向好的学习,把差的规避。相比传统的 PPO 算法,GRPO 不需要额外训练一个价值网络,实现起来更简洁高效。在 ScriptAgent 中,GRPO 被用来让编剧 AI 学习"什么样的剧本更有电影感"。

帧锚定(Frame Anchoring) 是 DirectorAgent 中最核心的连续性保障技术。原理就是用上一个视频片段的最后一帧画面作为下一个片段的视觉起点,这样生成的新片段在视觉上就会自然地延续上一段的人物和场景状态。这种方法简单直接但效果显著,是当前解决长视频中角色身份漂移问题的关键技术手段。

VSA(Visual-Script Alignment,视觉-剧本对齐度) 是论文中提出的一个新评估指标。它不仅检查视频内容是否包含了剧本描述的元素,还检查这些元素是否在正确的时间点出现。这比传统的"内容匹配"类指标更能反映视频对剧本的执行精度,也更贴近人类观众对"这个视频是否忠实于剧本"的主观判断。


十、写在最后

ScriptAgent 的意义不仅仅在于它能生成更好看的视频。它更深层的价值在于提出了一种系统化的思路:与其不断追求单个模型的极限能力,不如把复杂任务拆解成专业分工,让多个 AI 智能体协同完成。这种思路在 AI 应用层面具有很强的普适性。

从"给一句话生成一段短视频"到"给一段对话生成一部连贯的短片",视频生成领域正在从"画面能力"向"叙事能力"跃迁。而剧本——这个在影视工业中被反复验证了上百年的核心工具——正在以全新的形式回到舞台中央。

对于关注 AI 视频创作的朋友来说,这个项目值得持续关注。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐