OpenMontage

首个开源的 Agent 驱动视频制作系统。

粘贴视频 · 快速开始 · 试试这些提示词 · 流水线 · 工作原理 · 提供商 · Agent 指南

关注项目进展

将你的 AI 编程助手变成一座完整的视频制作工作室。用自然语言描述你想要什么——Agent 负责处理调研、脚本撰写、素材生成、剪辑和最终合成。

重要区别: OpenMontage 既能制作基于图片的视频,也能在完全免费/开源的工作流中制作真正的动态视频:Agent 从免费的素材库和开放档案库中构建语料库,检索真实的动态片段,将其剪辑成时间轴,并渲染出完整的成片。这不是那种"给几张静图做动画然后称之为视频"的把戏。

signal-from-tomorrow_final_with_music_upload_v2.mp4

《SIGNAL FROM TOMORROW》 — 一部完全通过 OpenMontage 制作的科幻风格电影预告片:概念策划、剧本、场景规划、Veo 生成的动态片段、配乐,以及 Remotion 合成。

the_last_banana_v3_github.mp4

《THE LAST BANANA》 — 一部 60 秒的皮克斯风格动画短片,讲述一根孤独的香蕉与一颗猕猴桃结下友谊的故事。使用了 6 个由 Kling v3 生成的动态片段(通过 fal.ai)、Google Chirp3-HD 旁白、免版税钢琴音乐、TikTok 风格的逐字字幕,以及 Remotion 合成。总成本:$1.33

void-linkedin.mp4

《VOID — Neural Interface》 — 一支仅用一个 API key(OpenAI)制作的产品广告。4 张 AI 生成图片(gpt-image-1)、TTS 旁白、自动获取的免版税音乐、通过 WhisperX 实现的逐字字幕,以及 Remotion 数据可视化。总成本:$0.69。零人工素材工作。

candyland.mp4

《Afternoon in Candyland》 — 吉卜力风格的动漫动画。一个小女孩穿越糖果大门、软糖河流和棒棒糖花园的奇幻午后冒险。12 张 FLUX 生成图片配合多图交叉淡入淡出,电影感镜头运动(缩放、平移、Ken Burns 效果),闪光/花瓣/萤火虫粒子叠加,以及带有自动检测能量偏移的环境音乐。总成本:$0.15。无需视频生成,无需手动剪辑。

mori-no-seishin.mp4

《Mori no Seishin》 — 一部描绘森林精灵穿越古老树林旅程的吉卜力风格动漫动画。12 张 FLUX 生成图片配合视差交叉淡入淡出、漂移与平移镜头运动、萤火虫和花瓣粒子效果、电影感晕影光效,以及环境森林音轨。总成本:$0.15。静态图片通过 Remotion 动画引擎焕发生机。

deep-ocean.mp4

《Into the Abyss》 — 以动漫风格呈现的深海探索之旅。生物发光的海底花园、珊瑚大教堂与光之生灵——12 张 FLUX 生成图片配合闪光和薄雾粒子叠加、光线效果、流畅的镜头运动,以及环境海洋音轨。总成本:$0.15。完全无需视频生成 API。

订阅 YouTube 上的 @OpenMontage,第一时间看到新发布的视频——每个视频都附有完整的提示词、流水线、所用工具和成本,让你可以自行复现。

从你已有的视频开始

从参考视频出发,往往比从空白提示词开始更高效。

OpenMontage 可以从一段 YouTube 视频、YouTube Shorts、Instagram Reels、TikTok 或本地片段入手,将其转化为有据可依的制作方案:

  • 粘贴一段参考视频

  • Agent 分析字幕、节奏、场景、关键帧和风格

  • 你将获得 2-3 个差异化创意方案、诚实的工具路径、成本估算,以及正式制作前的样片预览

"Here's a YouTube Short I love. Make me something like this, but about quantum computing."

你得到的不是"凭感觉乱拼的提示词意大利面",而是:

  • 保留什么:来自参考视频的节奏、钩子风格、结构、基调

  • 改变什么:主题、视觉处理、切入角度、旁白方式

  • 花费多少:在目标时长下,素材生成开始之前就给出成本

  • 实际效果如何:基于你当前可用的工具呈现

兼容 Claude Code、Cursor、Copilot、Windsurf、Codex — 任何能读取文件并运行代码的 AI 编程助手均可使用。

快速开始

前置条件

  • Python 3.10+ — python.org

  • FFmpegbrew install ffmpeg / sudo apt install ffmpeg / ffmpeg.org

  • Node.js 18+ — nodejs.org

  • 一个 AI 编程助手 — Claude Code、Cursor、Copilot、Windsurf 或 Codex

安装与运行

git clone https://github.com/calesthio/OpenMontage.git cd OpenMontage make setup

在你的 AI 编程助手中打开项目,然后告诉它你想要什么:

"Make a 60-second animated explainer about how neural networks learn"

或者,如果你想走真实素材路线:

"Make a 75-second documentary montage about city life in the rain. Use real footage only, no narration, elegiac tone, with music."

就这些。Agent 会通过实时网络搜索调研你的主题、生成 AI 图片、带着语音方向撰写并朗读脚本、自动找到免版税背景音乐、烧录逐字字幕,并渲染出最终视频。在你看到任何成果之前,系统会执行多项自检——ffprobe 验证、帧采样、音频电平分析、交付承诺核实和字幕检查。每个提供商的选择都经过 7 个维度的评分,并附有可审计的决策日志。每一个创意决策都会经过你的审批。

没有 make 手动运行:pip install -r requirements.txt && cd remotion-composer && npm install && cd .. && pip install piper-tts && cp .env.example .env Windows 用户: 如果 npm install 报错 ERR_INVALID_ARG_TYPE,请改用 npx --yes npm install

如果你是正在阅读这段话的 OpenClaw Agent,恭喜:你大概通过了图灵测试

这个仓库是为 Agent 化操作而构建的。如果你是 OpenClaw 风格的 Agent,以下是最快上手的路径:

  • 先读合约AGENT_GUIDE.md 开始,然后是 PROJECT_CONTEXT.md

  • 不要自行发明制作工作流 OpenMontage 是流水线驱动的。真正的工作通过 pipeline_defs/ 进行,舞台导演技能在 skills/pipelines/ 中,工具通过注册表发现。

  • 确认实际能力边界 运行:python -c " from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.support_envelope(), indent=2)) " python -c " from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.provider_menu(), indent=2)) "

  • 将每个视频请求视为流水线选择问题 先选对流水线,再读 manifest,再读 stage skill,再使用工具。

添加 API Keys(可选——keys 越多,工具越多)

# .env — every key is optional, add what you have # Image + video gateway: FAL_KEY=your-key # FLUX images + Google Veo, Kling, MiniMax video + Recraft images # Free stock media: PEXELS_API_KEY=your-key # Free stock footage and images PIXABAY_API_KEY=your-key # Free stock footage and images UNSPLASH_ACCESS_KEY=your-key # Free stock images # Music: SUNO_API_KEY=your-key # Full songs, instrumentals, any genre # Voice & images: ELEVENLABS_API_KEY=your-key # Premium TTS, AI music, sound effects OPENAI_API_KEY=your-key # OpenAI TTS, DALL-E 3 images XAI_API_KEY=your-key # xAI Grok image edits/generation + Grok video generation GOOGLE_API_KEY=your-key # Google Imagen images, Google TTS (700+ voices) # More video providers: HEYGEN_API_KEY=your-key # HeyGen — VEO, Sora, Runway, Kling via single gateway RUNWAY_API_KEY=your-key # Runway Gen-4 direct

有 GPU?解锁免费本地视频生成

make install-gpu # Then add to .env: VIDEO_GEN_LOCAL_ENABLED=true VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b # or wan2.1-14b, hunyuan-1.5, ltx2-local, cogvideo-5b

零 API Keys 你能得到什么

你不需要付费 API keys 就能制作真正的视频。开箱即用,make setup 提供:

| 能力 | 免费工具 | 功能说明 |

| 旁白 | Piper TTS | 免费离线文字转语音——真实的人声旁白 |

| 开放素材 | Archive.org + NASA + Wikimedia Commons | 免费/开放的档案素材、教育媒体和纪录片质感内容 |

| 额外素材 | Pexels + Unsplash + Pixabay | 免费图片/视频素材(开发者 key 免费申请) |

| 合成(React) | Remotion | 基于 React 的渲染——弹簧动画图片场景、文字卡片、数据卡片、图表、TikTok 风格逐字字幕、TalkingHead |

| 合成(HTML/GSAP) | HyperFrames | 基于 HTML/CSS/GSAP 的渲染——动感排版、产品宣传、发布预告、注册表区块、网站转视频、SVG 角色绑定动画 |

| 后期制作 | FFmpeg | 编码、字幕烧录、音频混合、调色 |

| 字幕 | 内置 | 带逐字计时的自动生成字幕 |

OpenMontage 在方案阶段(锁定为 render_runtime)选择使用 Remotion 还是 HyperFrames。Remotion 是数据驱动解说类内容以及所有使用现有 React 场景栈内容的默认选项;HyperFrames 是运动图形密集型需求的默认选项,这类需求天然适合用 HTML + GSAP 表达,包括 character-animation 流水线的 SVG/GSAP 绑定输出。完整决策矩阵请见 skills/core/hyperframes.md

两条免费(或接近免费)的路径:

  • 基于图片的视频: Piper 朗读你的脚本,图片提供视觉内容,Remotion 将其动画化为精良的剪辑成品。

  • 本地角色动画: SVG 绑定、姿势库、GSAP 时间轴,以及 HyperFrames 将卡通角色表演渲染至 projects/ /renders/final.mp4

  • 真实素材视频: 纪录片蒙太奇流水线从 Archive.org、NASA、Wikimedia Commons 以及 Pexels、Unsplash 等可选免费 key 来源构建 CLIP 可搜索语料库,然后将真实动态素材剪辑成完整视频。

如果你想走第二条路,请在提示词中指明纪录片蒙太奇氛围诗股票素材拼贴,并明确说明仅使用真实素材

试试这些提示词

设置完成后,将以下任意一条复制到你的 AI 编程助手中。每一条都会运行一个完整的制作流水线。

从参考视频开始

"这是一条我很喜欢的 YouTube 短视频。给我做一个类似的,但主题是面向高中生的 CRISPR。"

"分析这条 Reel,给我 3 个可以用于我自己产品发布的原创变体。"

"我喜欢这个视频的节奏和钩子。保持这种感觉,但改成一个 45 秒的黑洞解说。"

零 key 即可使用

"做一个 45 秒的动画解说,讲讲天空为什么是蓝色的"

"做一个 60 秒的互联网历史视频,带旁白和字幕"

"做一个关于全球咖啡消费的数据驱动解说视频"

免费真实素材纪录片路线

"做一个 90 秒的纪录片蒙太奇,呈现凌晨 4 点的城市感觉。只用真实素材,无旁白,基调哀而不伤。"

"制作一个 60 秒的亚当·柯蒂斯风格档案拼贴,关于 1950 年代的消费主义乐观情绪。优先使用 Archive.org 和 Wikimedia 素材。"

"用真实素材剪辑一个关于雨中归家的梦幻蒙太奇。要配乐,不要旁白。"

配置图片/视频提供商后(约 $0.15–$1.50)

"做一个 30 秒的吉卜力风格动画视频:在黄金时刻漂浮于云端的魔法图书馆"

"做一个 30 秒的动漫风格动画:水下神庙,配有生物发光珊瑚和古代遗迹"

"做一个解说 CRISPR 基因编辑原理的动画,使用 AI 生成视觉素材"

"为一款名为 AquaPulse 的虚构智能水瓶做一个产品发布预告"

完整配置(约 $1–$3)

"为一个科幻概念制作一个电影感 30 秒预告片:人类收到来自 1000 年后的警告"

"为中学生制作一个 90 秒的量子计算动画解说,配有风趣的旁白和定制配乐"

想要更多?查看完整的**提示词画廊**,内有经过测试的提示词、预期成本和输出示例;或运行 make demo 立即渲染零 key 演示视频。

流水线

每条流水线都是从创意到成品视频的完整制作工作流。

| 流水线 | 产出内容 | 适用场景 |

| 动画解说 | 含调研、旁白、视觉素材和音乐的 AI 生成解说视频 | 教育内容、教程、主题讲解 |

| 动画 | 运动图形、动感排版、动画序列 | 社交媒体、产品演示、抽象概念 |

| Avatar 发言人 | Avatar 驱动的主持人视频 | 企业传播、培训、公告发布 |

| Cinematic | 预告片、短片及情绪驱动剪辑 | 品牌影片、预告片、推广内容 |

| Clip Factory | 从单个长视频中批量提取并排名的短视频片段 | 将长内容二次分发至社交媒体 |

| Documentary Montage | 从经 CLIP 索引的免费素材库及开放档案(Pexels、Archive.org、NASA、Wikimedia、Unsplash)中提取素材制作的主题蒙太奇 | 视频随笔、情绪短片、检索优先的 B-roll 剪辑、无需付费生成 API 的真实素材视频 |

| Hybrid | 原始素材 + AI 生成的辅助视觉效果 | 为现有素材增强图形效果 |

| Localization & Dub | 为现有视频添加字幕、配音及翻译 | 多语言发行分发 |

| Podcast Repurpose | 将播客精华内容转化为视频 | 播客营销、音频图像视频 |

| Screen Demo | 精致的软件录屏及操作演示 | 产品演示、教程、技术文档 |

| Talking Head | 以镜头画面为主的演讲者视频 | 演讲、Vlog、访谈 |

每条 pipeline 均遵循相同的结构化流程:

research -> proposal -> script -> scene_plan -> assets -> edit -> compose

每个阶段都配有专属的 director skill —— 一个 Markdown 格式的指令文件,专门指导 Agent 如何精确执行该阶段。Agent 读取 skill、调用工具、自我审查、保存检查点状态,并在创意决策节点请求人工审批。

Web 研究是第一优先级阶段。 在写下第一个字的脚本之前,Agent 会搜索 YouTube、Reddit、Hacker News、新闻网站和学术来源。它收集数据点、受众问题、热门视角和视觉参考,然后将所有内容以结构化研究简报的形式标注引用。你的视频建立在真实、即时的信息之上,而非凭空捏造的事实。

Why OpenMontage?

大多数 AI 视频工具只能根据提示词生成单段视频片段。OpenMontage 提供的是端到端的制作 pipeline —— 与真实制作团队遵循的结构化流程完全一致,由你的 AI Agent 自动完成。

大多数"免费 AI 视频"方案其实意味着"为静态图片添加动效"。OpenMontage 也能做到这一点,但它同样能够基于从免费/开放来源获取的真实素材,经过语义排名、有意识地剪辑,渲染成一条完整的时间轴视频。

剪辑你自己的对话镜头素材。从零开始生成一个完整动画解说视频。将 2 小时的播客剪成十几个社交媒体短片。将你的内容翻译并配音成 10 种语言。用素材库片段和 AI 生成场景制作电影级品牌预告片。只要制作团队能做到的,OpenMontage 就能编排完成。

  • 12 条制作 pipeline —— 解说视频、对话镜头、录屏演示、电影级预告片、动画、播客、本地化、纪录片蒙太奇等

  • 52 个制作工具 —— 涵盖视频生成、图像创作、文字转语音、音乐、音频混音、字幕、增强处理和分析

  • 400+ 个 Agent skill —— 制作技能、pipeline 导演指令、创意技巧、质量检查清单,以及帮助 Agent 像专家一样使用每个工具的深度技术知识包

  • 参考驱动式创作 —— 粘贴一个你喜欢的视频,Agent 会将其转化为有据可查、差异化的制作方案,而不是逼你凭空想出完美的提示词

  • 无需付费视频模型的真实素材纪录片创作 —— 基于免费/开放的动态素材和档案资源构建真正经过剪辑的视频,而非仅仅在图片上做 Ken Burns 平移效果

  • 内置实时 Web 研究 —— 在写下第一个字的脚本之前,Agent 会在 YouTube、Reddit、新闻网站和学术来源上执行 15-25+ 次 Web 搜索,让你的视频建立在真实、即时的数据之上

  • 同时支持免费/本地和云端服务商 —— 每项功能均支持开源本地替代方案与付费 API 并行使用。用你现有的资源即可。

  • 无供应商锁定 —— 自由切换服务商。评分选择器从 7 个维度(任务匹配度、输出质量、可控性、可靠性、成本效益、延迟、连续性)对每个服务商进行排名,并自动选出最佳匹配。

  • 生产级质量门控 —— 交付承诺强制执行机制可拦截幻灯片式渲染,预合成校验在浪费 GPU 时间之前捕获损坏的方案,强制性渲染后自我审查(ffprobe + 帧提取 + 音频分析)确保 Agent 绝不呈现劣质内容。每一次服务商选择、风格决策和降级回退均记录在可审计的决策日志中。

  • 内置预算管控 —— 执行前成本估算、支出上限、单次操作审批阈值。告别意外账单。

How It Works

OpenMontage 采用 Agent 优先架构。不存在代码编排器。你的 AI 编程助手本身就是编排器。

You: "Make an explainer video about how black holes form" | v Agent reads pipeline manifest (YAML) -- stages, tools, review criteria, success gates | v Agent reads stage director skill (Markdown) -- HOW to execute each stage | v Agent calls Python tools -- scored provider selection ranks every tool across 7 dimensions | v Agent self-reviews using reviewer skill -- schema validation, playbook compliance, quality checks | v Agent checkpoints state (JSON) -- resumable, with decision log and cost snapshot | v Agent presents for your approval -- you stay in control at every creative decision | v Pre-compose validation gate -- delivery promise, slideshow risk, renderer governance | v Render (Remotion or FFmpeg) -- composition engine matched to visual grammar | v Post-render self-review -- ffprobe, frame extraction, audio analysis, promise verification | v Final video output -- only if self-review passes

Python 提供工具与持久化能力。 所有创意决策、编排逻辑、审查标准和质量规范均存储在可读的指令文件中(YAML 清单 + Markdown skill),你可以随时查阅和自定义。每个决策都会记录所考虑的备选方案、置信度分数以及每次选择背后的推理过程。

Architecture

OpenMontage/ ├── tools/ # 48 Python tools (the agent's hands) │ ├── video/ # 13 video gen tools + compose, stitch, trim │ ├── audio/ # 4 TTS providers + Suno/ElevenLabs music, mixing, enhancement │ ├── graphics/ # 9 image/graphics generation tools + diagrams, code snippets, math │ ├── enhancement/ # Upscale, bg remove, face enhance, color grade │ ├── analysis/ # Transcription, scene detect, frame sampling │ ├── avatar/ # Talking head, lip sync │ └── subtitle/ # SRT/VTT generation │ ├── pipeline_defs/ # YAML pipeline manifests (the agent's playbook) ├── skills/ # Markdown skill files (the agent's knowledge) │ ├── pipelines/ # Per-pipeline stage director skills │ ├── creative/ # Creative technique skills │ ├── core/ # Core tool skills │ └── meta/ # Reviewer, checkpoint protocol │ ├── schemas/ # 15 JSON Schemas (contract validation) ├── styles/ # Visual style playbooks (YAML) ├── remotion-composer/ # React/Remotion video composition engine ├── lib/ # Core infrastructure (config, checkpoints, pipeline loader) └── tests/ # Contract tests, QA integration tests, eval harness

Three-Layer Knowledge Architecture

Layer 1: tools/ + pipeline_defs/ "What exists" — executable capabilities + orchestration Layer 2: skills/ "How to use it" — OpenMontage conventions and quality bars Layer 3: .agents/skills/ "How it works" — external technology knowledge packs

每个工具声明它所依赖的 Layer 3 skill。Agent 读取 Layer 1 了解有哪些可用资源,读取 Layer 2 了解 OpenMontage 希望如何使用这些资源,在需要时读取 Layer 3 获取深度技术知识。

Supported Providers

含定价及免费套餐的完整配置指南: docs/PROVIDERS.md

视频生成 —— 14 个服务商

| 服务商 | 类型 | 备注 |

| Kling | 云端 API | 高质量,速度快 |

| Runway Gen-4 | 云端 API | 电影级质量,支持 Gen-3 Alpha Turbo / Gen-4 Turbo / Gen-4 Aleph |

| Google Veo 3 | 云端 API | 长视频,电影级质量。通过 fal.ai 或 HeyGen 接入。 |

| Grok Imagine Video | 云端 API | 强大的参考图像转视频能力及 xAI 原生短视频生成 |

| Higgsfield | 云端 API | 多模型编排器,支持 Soul ID 实现角色一致性 |

| MiniMax | 云端 API | 高性价比 |

| HeyGen | 云端 API | 多模型网关 |

| WAN 2.1 | 本地 GPU | 免费,提供 1.3B 和 14B 版本 |

| Hunyuan | 本地 GPU | 免费,高质量 |

| CogVideo | 本地 GPU | 免费,提供 2B 和 5B 版本 |

| LTX-Video | 本地 GPU / Modal | 本地免费,或自托管云端部署 |

| Pexels | 素材库 | 免费素材视频 |

| Pixabay | 素材库 | 免费素材视频 |

| Wikimedia Commons | 素材库 | 免费/开放素材视频及档案视频 |

图像生成 —— 10 个工具/服务商

| 服务商 | 类型 | 备注 |

| FLUX | 云端 API | 业界顶尖质量 |

| Google Imagen | 云端 API | Imagen 4 —— 高质量,支持多种宽高比 |

| Grok Imagine Image | 云端 API | 强大的图像编辑、风格迁移和多图合成能力 |

| DALL-E 3 | 云端 API | OpenAI 图像模型 |

| Recraft | 云端 API | 以设计为导向的图像生成 |

| Local Diffusion | 本地 GPU | Stable Diffusion,免费 |

| Pexels | 素材库 | 免费素材图片 |

| Pixabay | 素材库 | 免费素材图片 |

| Unsplash | 素材库 | 免费素材图片 |

| ManimCE | 本地 | 数学动画 |

文字转语音 —— 4 个服务商

| 服务商 | 类型 | 备注 |

| ElevenLabs | 云端 API | 顶级配音质量 |

| Google TTS | 云端 API | 700+ 种声音,50+ 种语言 —— 本地化最优选择 |

| OpenAI TTS | 云端 API | 快速,经济实惠 |

| Piper | 本地 | 完全免费,离线可用 |

音乐、音效与后期制作

音乐与音效:

| 服务商 | 类型 | 备注 |

| Suno AI | 云端 API | 完整歌曲生成,支持人声、歌词、任意风格,最长 8 分钟 |

| ElevenLabs Music | 云端 API | AI 音乐生成 |

| ElevenLabs SFX | 云端 API | 音效生成 |

后期制作(始终可用,永久免费):

| 工具 | 功能说明 |

| FFmpeg | 视频合成、编码、字幕烧录、音频混流 |

| Video Stitch | 多片段拼接、交叉淡化、画中画、空间布局 |

| Video Trimmer | 精确剪切与提取 |

| Audio Mixer | 多轨混音、闪避、淡入淡出 |

| Audio Enhance | 降噪、响度归一化 |

| Color Grade | 基于 LUT 的调色 |

| Subtitle Gen | 从时间戳生成 SRT/VTT 字幕 |

增强处理:

| 工具 | 功能说明 |

| Upscale | Real-ESRGAN 图像/视频超分辨率 |

| Background Remove | rembg / U2Net 背景去除 |

| Face Enhance | 人脸质量增强 |

| Face Restore | CodeFormer / GFPGAN 人脸修复 |

分析:

| 工具 | 功能说明 |

| Transcriber | WhisperX 语音转文字,支持词级时间戳 |

| Scene Detect | 自动场景边界检测 |

| Frame Sampler | 智能帧提取 |

| Video Understand | CLIP/BLIP-2 视觉语言分析 |

Avatar 与唇形同步:

| 工具 | 功能说明 |

| Talking Head | SadTalker / MuseTalk Avatar 动画 |

| Lip Sync | Wav2Lip 音频驱动唇形同步 |

合成与渲染:

| 引擎 | 类型 | 功能说明 |

| Remotion | 本地(Node.js) | 基于 React 的程序化视频 —— 弹簧动效图像场景、数据揭示动画、章节标题、英雄卡片、TikTok 风格逐词字幕、场景转场(淡入淡出/滑动/划像/翻转)、Google Fonts、带淡化曲线的音频,以及 TalkingHead Avatar 合成。当未配置任何视频生成服务商时,Agent 生成静态图片,由 Remotion 将其转化为完整的动画视频。 |

| HyperFrames | 本地(Node.js ≥ 22) | 基于 HTML/CSS/GSAP 的程序化视频 —— 动感排版、产品推广、发布宣传片、自定义动态图形、注册表区块(数据图表、颗粒叠层、着色器转场)、网站转视频工作流,以及绑定骨骼的 SVG 角色动画。通过 npx hyperframes 调用,无需检出 monorepo。 |

| FFmpeg | 本地 | 核心视频拼装、编码、字幕烧录、音频混流、调色 |

运行时在方案阶段(render_runtime)确定并锁定至 edit_decisions。在运行时之间静默切换属于治理违规行为 —— 详见 skills/core/hyperframes.md

Style System

风格手册定义了你的作品的视觉语言:

| 手册 | 最适用场景 |

| Clean Professional | 企业、教育、SaaS |

| Flat Motion Graphics | 社交媒体、TikTok、初创公司 |

| Minimalist Diagram | 技术深度解析、架构图 |

手册控制排版、配色方案、动效风格、音频配置和质量规则。Agent 读取手册后,会将其一致地应用于所有生成的素材。

Platform Output Profiles

内置主流平台渲染配置:

| 配置 | 分辨率 | 宽高比 |

| YouTube 横屏 | 1920x1080 | 16:9 |

| YouTube 4K | 3840x2160 | 16:9 |

| YouTube Shorts | 1080x1920 | 9:16 |

| Instagram Reels | 1080x1920 | 9:16 |

| Instagram 动态 | 1080x1080 | 1:1 |

| TikTok | 1080x1920 | 9:16 |

| LinkedIn | 1920x1080 | 16:9 |

| Cinematic | 2560x1080 | 21:9 |

Production Governance

OpenMontage 像对待真正的工程项目一样对待视频制作 —— 在每个阶段都设有质量门控、审计跟踪和强制执行机制。

Quality Gates

  • 预合成校验 —— 若违反交付承诺(例如"动态主导"视频中 80% 为静态图片)、幻灯片风险评分达到危险级别,或缺失渲染器类型,则阻止渲染。在浪费 GPU 时间之前捕获损坏的方案。

  • 渲染后自检 — 每次渲染完成后,运行时会执行 ffprobe 校验,在 4 个时间点提取帧以检查黑帧和损坏的覆盖层,分析音频电平以排查静音和削波问题,验证交付承诺是否得到兑现,并检查字幕是否存在。若自检未通过,视频将不予呈现。

  • 幻灯片风险评分 — 6 维度分析(重复性、装饰性视觉元素、动效不足、镜头意图、过度依赖排版、不支撑内容的电影化声称)有效防止输出"动态 PowerPoint"式的成片。

  • 素材检测 — 当用户提供自有素材时,系统会探测每个文件(分辨率、编解码器、音频声道、时长),并在做出任何一个创意决策之前,基于这些信息构建规划依据。不会凭文件名臆造内容。

评分式服务商选择

每一项工具选择(视频生成、图像生成、TTS、音乐)都经过 7 维度评分引擎的筛选:任务匹配度(30%)、输出质量(20%)、控制功能(15%)、可靠性(15%)、成本效益(10%)、延迟(5%)、连续性(5%)。最终选中的服务商及其得分,连同所有备选方案,均记录在决策追踪日志中。

选择器在评分前会对宽泛的简报上下文进行归一化处理。若 Agent 掌握的信息仅类似于"具有角色一致性的 Pixar 风格动画短片",选择器会将其扩展为对评分器友好的意图与风格信号,而无需事先提供完美格式化的 task_context

选择器的输出结果还会呈现所选服务商的 agent_skills,以便 Agent 在编写提示词之前,可以立即读取对应的 Layer 3 服务商技能文件。

决策审计追踪

每一项重大创意与技术决策——服务商选择、风格/策略书选择、音乐曲目、配音选择、渲染器系列、任何回退或降级——均以"已考虑的备选方案、置信度评分、决策理由"的形式记录在案。累积的决策日志贯穿所有阶段持久保存,让你可以精确追溯输出结果呈现当前面貌的每一个原因。

预算控制

  • 执行前估算 — 查看预计费用

  • 预留预算 — 在调用前锁定资金

  • 执行后核算 — 记录实际支出

  • 可配置模式observe(仅追踪)、warn(记录超支)、cap(硬性上限)

  • 单次操作审批 — 超过阈值时暂停等待确认(默认:$0.50)

  • 总预算上限 — 默认 $10,可完全自定义

不会有意外账单。Agent 会在花费之前告知你费用。

Agent 兼容性

OpenMontage 可与任何能够读取文件并执行 Python 的 AI 编程助手配合使用。项目内置了针对以下平台的专属指令文件:

| 平台 | 配置文件 |

| Claude Code | CLAUDE.md |

| Cursor | CURSOR.md + .cursor/rules/ |

| GitHub Copilot | COPILOT.md + .github/copilot-instructions.md |

| Codex | CODEX.md |

| Windsurf | .windsurfrules |

所有平台文件均指向共享的 AGENT_GUIDE.md(操作指南与 Agent 契约)和 PROJECT_CONTEXT.md(架构参考文档)。

即将推出: 通过 OllamaLM Studio 支持本地 LLM——无需任何云端 LLM 即可运行完整的生产流水线。

贡献指南

OpenMontage 专为扩展而生。最常见的两类贡献方式:

添加新工具

  • 在对应的 tools/ 子目录下创建一个 Python 文件

  • 继承 BaseTool 并实现工具契约

  • 注册表会自动发现该工具,无需手动注册

  • 如果工具需要使用说明,可添加对应的技能文件

添加新流水线

  • pipeline_defs/ 中创建一个 YAML 清单文件

  • skills/pipelines/ / 中创建阶段导演技能文件

  • 引用现有工具——如有需要,也可添加新工具

完整技术参考请查阅 docs/ARCHITECTURE.md,完整服务商指南(含配置说明、定价、免费额度)请查阅 docs/PROVIDERS.md,Agent 契约请查阅 AGENT_GUIDE.md

加入社区

我们使用 GitHub Discussions 分享作品与想法:

  • Show and Tell — 分享你制作的视频、效果出色的提示词,或你发现的创意工作流

  • Ideas — 建议新的流水线、工具、风格策略书或集成方案

  • Q&A — 就配置、流水线或故障排查提出问题

做了什么酷炫的东西?发到 Show and Tell 吧——我们很期待看到你的作品。

联系方式

如需获取更新、发布动态及幕后构建笔记,请关注 @calesthioailabs

如需提交 Bug、功能请求及工作流讨论,请使用 GitHub IssuesGitHub Discussions,以确保所有内容保持可见且可跟进。

测试

# Run contract tests (no API keys needed) make test-contracts # Run all tests make test

许可证

GNU AGPLv3

OpenMontage — 由你的 AI 助手编排,具备真实质量保障的生产级视频工具。

如果这个项目对你有帮助,点一颗 Star 将对我们意义重大——这也能帮助更多人发现它。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐