GitHub - calesthio/OpenMontage: 世界首个开源智能体视频生产系统。12条pipeline，52个tool，500+个agent skill。

曦尧

313人浏览 · 2026-06-21 07:22:55

曦尧 · 2026-06-21 07:22:55 发布

OpenMontage

首个开源的 Agent 驱动视频制作系统。

粘贴视频 · 快速开始 · 试试这些提示词 · 流水线 · 工作原理 · 提供商 · Agent 指南

关注项目进展

将你的 AI 编程助手变成一座完整的视频制作工作室。用自然语言描述你想要什么——Agent 负责处理调研、脚本撰写、素材生成、剪辑和最终合成。

重要区别： OpenMontage 既能制作基于图片的视频，也能在完全免费/开源的工作流中制作真正的动态视频：Agent 从免费的素材库和开放档案库中构建语料库，检索真实的动态片段，将其剪辑成时间轴，并渲染出完整的成片。这不是那种"给几张静图做动画然后称之为视频"的把戏。

signal-from-tomorrow_final_with_music_upload_v2.mp4

《SIGNAL FROM TOMORROW》 — 一部完全通过 OpenMontage 制作的科幻风格电影预告片：概念策划、剧本、场景规划、Veo 生成的动态片段、配乐，以及 Remotion 合成。

the_last_banana_v3_github.mp4

《THE LAST BANANA》 — 一部 60 秒的皮克斯风格动画短片，讲述一根孤独的香蕉与一颗猕猴桃结下友谊的故事。使用了 6 个由 Kling v3 生成的动态片段（通过 fal.ai）、Google Chirp3-HD 旁白、免版税钢琴音乐、TikTok 风格的逐字字幕，以及 Remotion 合成。总成本：$1.33。

void-linkedin.mp4

《VOID — Neural Interface》 — 一支仅用一个 API key（OpenAI）制作的产品广告。4 张 AI 生成图片（gpt-image-1）、TTS 旁白、自动获取的免版税音乐、通过 WhisperX 实现的逐字字幕，以及 Remotion 数据可视化。总成本：$0.69。零人工素材工作。

candyland.mp4

《Afternoon in Candyland》 — 吉卜力风格的动漫动画。一个小女孩穿越糖果大门、软糖河流和棒棒糖花园的奇幻午后冒险。12 张 FLUX 生成图片配合多图交叉淡入淡出，电影感镜头运动（缩放、平移、Ken Burns 效果），闪光/花瓣/萤火虫粒子叠加，以及带有自动检测能量偏移的环境音乐。总成本：$0.15。无需视频生成，无需手动剪辑。

mori-no-seishin.mp4

《Mori no Seishin》 — 一部描绘森林精灵穿越古老树林旅程的吉卜力风格动漫动画。12 张 FLUX 生成图片配合视差交叉淡入淡出、漂移与平移镜头运动、萤火虫和花瓣粒子效果、电影感晕影光效，以及环境森林音轨。总成本：$0.15。静态图片通过 Remotion 动画引擎焕发生机。

deep-ocean.mp4

《Into the Abyss》 — 以动漫风格呈现的深海探索之旅。生物发光的海底花园、珊瑚大教堂与光之生灵——12 张 FLUX 生成图片配合闪光和薄雾粒子叠加、光线效果、流畅的镜头运动，以及环境海洋音轨。总成本：$0.15。完全无需视频生成 API。

订阅 YouTube 上的 @OpenMontage，第一时间看到新发布的视频——每个视频都附有完整的提示词、流水线、所用工具和成本，让你可以自行复现。

从你已有的视频开始

从参考视频出发，往往比从空白提示词开始更高效。

OpenMontage 可以从一段 YouTube 视频、YouTube Shorts、Instagram Reels、TikTok 或本地片段入手，将其转化为有据可依的制作方案：

粘贴一段参考视频
Agent 分析字幕、节奏、场景、关键帧和风格
你将获得 2-3 个差异化创意方案、诚实的工具路径、成本估算，以及正式制作前的样片预览

"Here's a YouTube Short I love. Make me something like this, but about quantum computing."

你得到的不是"凭感觉乱拼的提示词意大利面"，而是：

保留什么：来自参考视频的节奏、钩子风格、结构、基调
改变什么：主题、视觉处理、切入角度、旁白方式
花费多少：在目标时长下，素材生成开始之前就给出成本
实际效果如何：基于你当前可用的工具呈现

兼容 Claude Code、Cursor、Copilot、Windsurf、Codex — 任何能读取文件并运行代码的 AI 编程助手均可使用。

快速开始

前置条件

Python 3.10+ — python.org
FFmpeg — brew install ffmpeg / sudo apt install ffmpeg / ffmpeg.org
Node.js 18+ — nodejs.org
一个 AI 编程助手 — Claude Code、Cursor、Copilot、Windsurf 或 Codex

安装与运行

git clone https://github.com/calesthio/OpenMontage.git cd OpenMontage make setup

在你的 AI 编程助手中打开项目，然后告诉它你想要什么：

"Make a 60-second animated explainer about how neural networks learn"

或者，如果你想走真实素材路线：

"Make a 75-second documentary montage about city life in the rain. Use real footage only, no narration, elegiac tone, with music."

就这些。Agent 会通过实时网络搜索调研你的主题、生成 AI 图片、带着语音方向撰写并朗读脚本、自动找到免版税背景音乐、烧录逐字字幕，并渲染出最终视频。在你看到任何成果之前，系统会执行多项自检——ffprobe 验证、帧采样、音频电平分析、交付承诺核实和字幕检查。每个提供商的选择都经过 7 个维度的评分，并附有可审计的决策日志。每一个创意决策都会经过你的审批。

没有 make？ 手动运行：pip install -r requirements.txt && cd remotion-composer && npm install && cd .. && pip install piper-tts && cp .env.example .env Windows 用户： 如果 npm install 报错 ERR_INVALID_ARG_TYPE，请改用 npx --yes npm install。

如果你是正在阅读这段话的 OpenClaw Agent，恭喜：你大概通过了图灵测试

这个仓库是为 Agent 化操作而构建的。如果你是 OpenClaw 风格的 Agent，以下是最快上手的路径：

先读合约 从 AGENT_GUIDE.md 开始，然后是 PROJECT_CONTEXT.md。
不要自行发明制作工作流 OpenMontage 是流水线驱动的。真正的工作通过 pipeline_defs/ 进行，舞台导演技能在 skills/pipelines/ 中，工具通过注册表发现。
确认实际能力边界 运行：python -c " from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.support_envelope(), indent=2)) " python -c " from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.provider_menu(), indent=2)) "
将每个视频请求视为流水线选择问题 先选对流水线，再读 manifest，再读 stage skill，再使用工具。

添加 API Keys（可选——keys 越多，工具越多）

# .env — every key is optional, add what you have # Image + video gateway: FAL_KEY=your-key # FLUX images + Google Veo, Kling, MiniMax video + Recraft images # Free stock media: PEXELS_API_KEY=your-key # Free stock footage and images PIXABAY_API_KEY=your-key # Free stock footage and images UNSPLASH_ACCESS_KEY=your-key # Free stock images # Music: SUNO_API_KEY=your-key # Full songs, instrumentals, any genre # Voice & images: ELEVENLABS_API_KEY=your-key # Premium TTS, AI music, sound effects OPENAI_API_KEY=your-key # OpenAI TTS, DALL-E 3 images XAI_API_KEY=your-key # xAI Grok image edits/generation + Grok video generation GOOGLE_API_KEY=your-key # Google Imagen images, Google TTS (700+ voices) # More video providers: HEYGEN_API_KEY=your-key # HeyGen — VEO, Sora, Runway, Kling via single gateway RUNWAY_API_KEY=your-key # Runway Gen-4 direct

有 GPU？解锁免费本地视频生成

make install-gpu # Then add to .env: VIDEO_GEN_LOCAL_ENABLED=true VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b # or wan2.1-14b, hunyuan-1.5, ltx2-local, cogvideo-5b

零 API Keys 你能得到什么

你不需要付费 API keys 就能制作真正的视频。开箱即用，make setup 提供：

| 能力 | 免费工具 | 功能说明 |

| 旁白 | Piper TTS | 免费离线文字转语音——真实的人声旁白 |

| 开放素材 | Archive.org + NASA + Wikimedia Commons | 免费/开放的档案素材、教育媒体和纪录片质感内容 |

| 额外素材 | Pexels + Unsplash + Pixabay | 免费图片/视频素材（开发者 key 免费申请） |

| 合成（React） | Remotion | 基于 React 的渲染——弹簧动画图片场景、文字卡片、数据卡片、图表、TikTok 风格逐字字幕、TalkingHead |

| 合成（HTML/GSAP） | HyperFrames | 基于 HTML/CSS/GSAP 的渲染——动感排版、产品宣传、发布预告、注册表区块、网站转视频、SVG 角色绑定动画 |

| 后期制作 | FFmpeg | 编码、字幕烧录、音频混合、调色 |

| 字幕 | 内置 | 带逐字计时的自动生成字幕 |

OpenMontage 在方案阶段（锁定为 render_runtime）选择使用 Remotion 还是 HyperFrames。Remotion 是数据驱动解说类内容以及所有使用现有 React 场景栈内容的默认选项；HyperFrames 是运动图形密集型需求的默认选项，这类需求天然适合用 HTML + GSAP 表达，包括 character-animation 流水线的 SVG/GSAP 绑定输出。完整决策矩阵请见 skills/core/hyperframes.md。

两条免费（或接近免费）的路径：

基于图片的视频： Piper 朗读你的脚本，图片提供视觉内容，Remotion 将其动画化为精良的剪辑成品。
本地角色动画： SVG 绑定、姿势库、GSAP 时间轴，以及 HyperFrames 将卡通角色表演渲染至 projects/ /renders/final.mp4。
真实素材视频： 纪录片蒙太奇流水线从 Archive.org、NASA、Wikimedia Commons 以及 Pexels、Unsplash 等可选免费 key 来源构建 CLIP 可搜索语料库，然后将真实动态素材剪辑成完整视频。

如果你想走第二条路，请在提示词中指明纪录片蒙太奇、氛围诗或股票素材拼贴，并明确说明仅使用真实素材。

试试这些提示词

设置完成后，将以下任意一条复制到你的 AI 编程助手中。每一条都会运行一个完整的制作流水线。

从参考视频开始

"这是一条我很喜欢的 YouTube 短视频。给我做一个类似的，但主题是面向高中生的 CRISPR。"

"分析这条 Reel，给我 3 个可以用于我自己产品发布的原创变体。"

"我喜欢这个视频的节奏和钩子。保持这种感觉，但改成一个 45 秒的黑洞解说。"

零 key 即可使用

"做一个 45 秒的动画解说，讲讲天空为什么是蓝色的"

"做一个 60 秒的互联网历史视频，带旁白和字幕"

"做一个关于全球咖啡消费的数据驱动解说视频"

免费真实素材纪录片路线

"做一个 90 秒的纪录片蒙太奇，呈现凌晨 4 点的城市感觉。只用真实素材，无旁白，基调哀而不伤。"

"制作一个 60 秒的亚当·柯蒂斯风格档案拼贴，关于 1950 年代的消费主义乐观情绪。优先使用 Archive.org 和 Wikimedia 素材。"

"用真实素材剪辑一个关于雨中归家的梦幻蒙太奇。要配乐，不要旁白。"

配置图片/视频提供商后（约 $0.15–$1.50）

"做一个 30 秒的吉卜力风格动画视频：在黄金时刻漂浮于云端的魔法图书馆"

"做一个 30 秒的动漫风格动画：水下神庙，配有生物发光珊瑚和古代遗迹"

"做一个解说 CRISPR 基因编辑原理的动画，使用 AI 生成视觉素材"

"为一款名为 AquaPulse 的虚构智能水瓶做一个产品发布预告"

完整配置（约 $1–$3）

"为一个科幻概念制作一个电影感 30 秒预告片：人类收到来自 1000 年后的警告"

"为中学生制作一个 90 秒的量子计算动画解说，配有风趣的旁白和定制配乐"

想要更多？查看完整的**提示词画廊**，内有经过测试的提示词、预期成本和输出示例；或运行 make demo 立即渲染零 key 演示视频。

流水线

每条流水线都是从创意到成品视频的完整制作工作流。

| 流水线 | 产出内容 | 适用场景 |

| 动画解说 | 含调研、旁白、视觉素材和音乐的 AI 生成解说视频 | 教育内容、教程、主题讲解 |

| 动画 | 运动图形、动感排版、动画序列 | 社交媒体、产品演示、抽象概念 |

| Avatar 发言人 | Avatar 驱动的主持人视频 | 企业传播、培训、公告发布 |

| Cinematic | 预告片、短片及情绪驱动剪辑 | 品牌影片、预告片、推广内容 |

| Clip Factory | 从单个长视频中批量提取并排名的短视频片段 | 将长内容二次分发至社交媒体 |

| Documentary Montage | 从经 CLIP 索引的免费素材库及开放档案（Pexels、Archive.org、NASA、Wikimedia、Unsplash）中提取素材制作的主题蒙太奇 | 视频随笔、情绪短片、检索优先的 B-roll 剪辑、无需付费生成 API 的真实素材视频 |

| Hybrid | 原始素材 + AI 生成的辅助视觉效果 | 为现有素材增强图形效果 |

| Localization & Dub | 为现有视频添加字幕、配音及翻译 | 多语言发行分发 |

| Podcast Repurpose | 将播客精华内容转化为视频 | 播客营销、音频图像视频 |

| Screen Demo | 精致的软件录屏及操作演示 | 产品演示、教程、技术文档 |

| Talking Head | 以镜头画面为主的演讲者视频 | 演讲、Vlog、访谈 |

每条 pipeline 均遵循相同的结构化流程：

research -> proposal -> script -> scene_plan -> assets -> edit -> compose

每个阶段都配有专属的 director skill —— 一个 Markdown 格式的指令文件，专门指导 Agent 如何精确执行该阶段。Agent 读取 skill、调用工具、自我审查、保存检查点状态，并在创意决策节点请求人工审批。

Web 研究是第一优先级阶段。 在写下第一个字的脚本之前，Agent 会搜索 YouTube、Reddit、Hacker News、新闻网站和学术来源。它收集数据点、受众问题、热门视角和视觉参考，然后将所有内容以结构化研究简报的形式标注引用。你的视频建立在真实、即时的信息之上，而非凭空捏造的事实。

Why OpenMontage?

大多数 AI 视频工具只能根据提示词生成单段视频片段。OpenMontage 提供的是端到端的制作 pipeline —— 与真实制作团队遵循的结构化流程完全一致，由你的 AI Agent 自动完成。

大多数"免费 AI 视频"方案其实意味着"为静态图片添加动效"。OpenMontage 也能做到这一点，但它同样能够基于从免费/开放来源获取的真实素材，经过语义排名、有意识地剪辑，渲染成一条完整的时间轴视频。

剪辑你自己的对话镜头素材。从零开始生成一个完整动画解说视频。将 2 小时的播客剪成十几个社交媒体短片。将你的内容翻译并配音成 10 种语言。用素材库片段和 AI 生成场景制作电影级品牌预告片。只要制作团队能做到的，OpenMontage 就能编排完成。

12 条制作 pipeline —— 解说视频、对话镜头、录屏演示、电影级预告片、动画、播客、本地化、纪录片蒙太奇等
52 个制作工具 —— 涵盖视频生成、图像创作、文字转语音、音乐、音频混音、字幕、增强处理和分析
400+ 个 Agent skill —— 制作技能、pipeline 导演指令、创意技巧、质量检查清单，以及帮助 Agent 像专家一样使用每个工具的深度技术知识包
参考驱动式创作 —— 粘贴一个你喜欢的视频，Agent 会将其转化为有据可查、差异化的制作方案，而不是逼你凭空想出完美的提示词
无需付费视频模型的真实素材纪录片创作 —— 基于免费/开放的动态素材和档案资源构建真正经过剪辑的视频，而非仅仅在图片上做 Ken Burns 平移效果
内置实时 Web 研究 —— 在写下第一个字的脚本之前，Agent 会在 YouTube、Reddit、新闻网站和学术来源上执行 15-25+ 次 Web 搜索，让你的视频建立在真实、即时的数据之上
同时支持免费/本地和云端服务商 —— 每项功能均支持开源本地替代方案与付费 API 并行使用。用你现有的资源即可。
无供应商锁定 —— 自由切换服务商。评分选择器从 7 个维度（任务匹配度、输出质量、可控性、可靠性、成本效益、延迟、连续性）对每个服务商进行排名，并自动选出最佳匹配。
生产级质量门控 —— 交付承诺强制执行机制可拦截幻灯片式渲染，预合成校验在浪费 GPU 时间之前捕获损坏的方案，强制性渲染后自我审查（ffprobe + 帧提取 + 音频分析）确保 Agent 绝不呈现劣质内容。每一次服务商选择、风格决策和降级回退均记录在可审计的决策日志中。
内置预算管控 —— 执行前成本估算、支出上限、单次操作审批阈值。告别意外账单。

How It Works

OpenMontage 采用 Agent 优先架构。不存在代码编排器。你的 AI 编程助手本身就是编排器。

You: "Make an explainer video about how black holes form" | v Agent reads pipeline manifest (YAML) -- stages, tools, review criteria, success gates | v Agent reads stage director skill (Markdown) -- HOW to execute each stage | v Agent calls Python tools -- scored provider selection ranks every tool across 7 dimensions | v Agent self-reviews using reviewer skill -- schema validation, playbook compliance, quality checks | v Agent checkpoints state (JSON) -- resumable, with decision log and cost snapshot | v Agent presents for your approval -- you stay in control at every creative decision | v Pre-compose validation gate -- delivery promise, slideshow risk, renderer governance | v Render (Remotion or FFmpeg) -- composition engine matched to visual grammar | v Post-render self-review -- ffprobe, frame extraction, audio analysis, promise verification | v Final video output -- only if self-review passes

Python 提供工具与持久化能力。 所有创意决策、编排逻辑、审查标准和质量规范均存储在可读的指令文件中（YAML 清单 + Markdown skill），你可以随时查阅和自定义。每个决策都会记录所考虑的备选方案、置信度分数以及每次选择背后的推理过程。

Architecture

OpenMontage/ ├── tools/ # 48 Python tools (the agent's hands) │ ├── video/ # 13 video gen tools + compose, stitch, trim │ ├── audio/ # 4 TTS providers + Suno/ElevenLabs music, mixing, enhancement │ ├── graphics/ # 9 image/graphics generation tools + diagrams, code snippets, math │ ├── enhancement/ # Upscale, bg remove, face enhance, color grade │ ├── analysis/ # Transcription, scene detect, frame sampling │ ├── avatar/ # Talking head, lip sync │ └── subtitle/ # SRT/VTT generation │ ├── pipeline_defs/ # YAML pipeline manifests (the agent's playbook) ├── skills/ # Markdown skill files (the agent's knowledge) │ ├── pipelines/ # Per-pipeline stage director skills │ ├── creative/ # Creative technique skills │ ├── core/ # Core tool skills │ └── meta/ # Reviewer, checkpoint protocol │ ├── schemas/ # 15 JSON Schemas (contract validation) ├── styles/ # Visual style playbooks (YAML) ├── remotion-composer/ # React/Remotion video composition engine ├── lib/ # Core infrastructure (config, checkpoints, pipeline loader) └── tests/ # Contract tests, QA integration tests, eval harness

Three-Layer Knowledge Architecture

Layer 1: tools/ + pipeline_defs/ "What exists" — executable capabilities + orchestration Layer 2: skills/ "How to use it" — OpenMontage conventions and quality bars Layer 3: .agents/skills/ "How it works" — external technology knowledge packs

每个工具声明它所依赖的 Layer 3 skill。Agent 读取 Layer 1 了解有哪些可用资源，读取 Layer 2 了解 OpenMontage 希望如何使用这些资源，在需要时读取 Layer 3 获取深度技术知识。

Supported Providers

含定价及免费套餐的完整配置指南： docs/PROVIDERS.md

视频生成 —— 14 个服务商

| 服务商 | 类型 | 备注 |

| Kling | 云端 API | 高质量，速度快 |

| Runway Gen-4 | 云端 API | 电影级质量，支持 Gen-3 Alpha Turbo / Gen-4 Turbo / Gen-4 Aleph |

| Google Veo 3 | 云端 API | 长视频，电影级质量。通过 fal.ai 或 HeyGen 接入。 |

| Grok Imagine Video | 云端 API | 强大的参考图像转视频能力及 xAI 原生短视频生成 |

| Higgsfield | 云端 API | 多模型编排器，支持 Soul ID 实现角色一致性 |

| MiniMax | 云端 API | 高性价比 |

| HeyGen | 云端 API | 多模型网关 |

| WAN 2.1 | 本地 GPU | 免费，提供 1.3B 和 14B 版本 |

| Hunyuan | 本地 GPU | 免费，高质量 |

| CogVideo | 本地 GPU | 免费，提供 2B 和 5B 版本 |

| LTX-Video | 本地 GPU / Modal | 本地免费，或自托管云端部署 |

| Pexels | 素材库 | 免费素材视频 |

| Pixabay | 素材库 | 免费素材视频 |

| Wikimedia Commons | 素材库 | 免费/开放素材视频及档案视频 |

图像生成 —— 10 个工具/服务商

| 服务商 | 类型 | 备注 |

| FLUX | 云端 API | 业界顶尖质量 |

| Google Imagen | 云端 API | Imagen 4 —— 高质量，支持多种宽高比 |

| Grok Imagine Image | 云端 API | 强大的图像编辑、风格迁移和多图合成能力 |

| DALL-E 3 | 云端 API | OpenAI 图像模型 |

| Recraft | 云端 API | 以设计为导向的图像生成 |

| Local Diffusion | 本地 GPU | Stable Diffusion，免费 |

| Pexels | 素材库 | 免费素材图片 |

| Pixabay | 素材库 | 免费素材图片 |

| Unsplash | 素材库 | 免费素材图片 |

| ManimCE | 本地 | 数学动画 |

文字转语音 —— 4 个服务商

| 服务商 | 类型 | 备注 |

| ElevenLabs | 云端 API | 顶级配音质量 |

| Google TTS | 云端 API | 700+ 种声音，50+ 种语言 —— 本地化最优选择 |

| OpenAI TTS | 云端 API | 快速，经济实惠 |

| Piper | 本地 | 完全免费，离线可用 |

音乐、音效与后期制作

音乐与音效：

| 服务商 | 类型 | 备注 |

| Suno AI | 云端 API | 完整歌曲生成，支持人声、歌词、任意风格，最长 8 分钟 |

| ElevenLabs Music | 云端 API | AI 音乐生成 |

| ElevenLabs SFX | 云端 API | 音效生成 |

后期制作（始终可用，永久免费）：

| 工具 | 功能说明 |

| FFmpeg | 视频合成、编码、字幕烧录、音频混流 |

| Video Stitch | 多片段拼接、交叉淡化、画中画、空间布局 |

| Video Trimmer | 精确剪切与提取 |

| Audio Mixer | 多轨混音、闪避、淡入淡出 |

| Audio Enhance | 降噪、响度归一化 |

| Color Grade | 基于 LUT 的调色 |

| Subtitle Gen | 从时间戳生成 SRT/VTT 字幕 |

增强处理：

| 工具 | 功能说明 |

| Upscale | Real-ESRGAN 图像/视频超分辨率 |

| Background Remove | rembg / U2Net 背景去除 |

| Face Enhance | 人脸质量增强 |

| Face Restore | CodeFormer / GFPGAN 人脸修复 |

分析：

| 工具 | 功能说明 |

| Transcriber | WhisperX 语音转文字，支持词级时间戳 |

| Scene Detect | 自动场景边界检测 |

| Frame Sampler | 智能帧提取 |

| Video Understand | CLIP/BLIP-2 视觉语言分析 |

Avatar 与唇形同步：

| 工具 | 功能说明 |

| Talking Head | SadTalker / MuseTalk Avatar 动画 |

| Lip Sync | Wav2Lip 音频驱动唇形同步 |

合成与渲染：

| 引擎 | 类型 | 功能说明 |

| Remotion | 本地（Node.js） | 基于 React 的程序化视频 —— 弹簧动效图像场景、数据揭示动画、章节标题、英雄卡片、TikTok 风格逐词字幕、场景转场（淡入淡出/滑动/划像/翻转）、Google Fonts、带淡化曲线的音频，以及 TalkingHead Avatar 合成。当未配置任何视频生成服务商时，Agent 生成静态图片，由 Remotion 将其转化为完整的动画视频。 |

| HyperFrames | 本地（Node.js ≥ 22） | 基于 HTML/CSS/GSAP 的程序化视频 —— 动感排版、产品推广、发布宣传片、自定义动态图形、注册表区块（数据图表、颗粒叠层、着色器转场）、网站转视频工作流，以及绑定骨骼的 SVG 角色动画。通过 npx hyperframes 调用，无需检出 monorepo。 |

| FFmpeg | 本地 | 核心视频拼装、编码、字幕烧录、音频混流、调色 |

运行时在方案阶段（render_runtime）确定并锁定至 edit_decisions。在运行时之间静默切换属于治理违规行为 —— 详见 skills/core/hyperframes.md。

Style System

风格手册定义了你的作品的视觉语言：

| 手册 | 最适用场景 |

| Clean Professional | 企业、教育、SaaS |

| Flat Motion Graphics | 社交媒体、TikTok、初创公司 |

| Minimalist Diagram | 技术深度解析、架构图 |

手册控制排版、配色方案、动效风格、音频配置和质量规则。Agent 读取手册后，会将其一致地应用于所有生成的素材。

Platform Output Profiles

内置主流平台渲染配置：

| 配置 | 分辨率 | 宽高比 |

| YouTube 横屏 | 1920x1080 | 16:9 |

| YouTube 4K | 3840x2160 | 16:9 |

| YouTube Shorts | 1080x1920 | 9:16 |

| Instagram Reels | 1080x1920 | 9:16 |

| Instagram 动态 | 1080x1080 | 1:1 |

| TikTok | 1080x1920 | 9:16 |

| LinkedIn | 1920x1080 | 16:9 |

| Cinematic | 2560x1080 | 21:9 |

Production Governance

OpenMontage 像对待真正的工程项目一样对待视频制作 —— 在每个阶段都设有质量门控、审计跟踪和强制执行机制。

Quality Gates

预合成校验 —— 若违反交付承诺（例如"动态主导"视频中 80% 为静态图片）、幻灯片风险评分达到危险级别，或缺失渲染器类型，则阻止渲染。在浪费 GPU 时间之前捕获损坏的方案。
渲染后自检 — 每次渲染完成后，运行时会执行 ffprobe 校验，在 4 个时间点提取帧以检查黑帧和损坏的覆盖层，分析音频电平以排查静音和削波问题，验证交付承诺是否得到兑现，并检查字幕是否存在。若自检未通过，视频将不予呈现。
幻灯片风险评分 — 6 维度分析（重复性、装饰性视觉元素、动效不足、镜头意图、过度依赖排版、不支撑内容的电影化声称）有效防止输出"动态 PowerPoint"式的成片。
素材检测 — 当用户提供自有素材时，系统会探测每个文件（分辨率、编解码器、音频声道、时长），并在做出任何一个创意决策之前，基于这些信息构建规划依据。不会凭文件名臆造内容。

评分式服务商选择

每一项工具选择（视频生成、图像生成、TTS、音乐）都经过 7 维度评分引擎的筛选：任务匹配度（30%）、输出质量（20%）、控制功能（15%）、可靠性（15%）、成本效益（10%）、延迟（5%）、连续性（5%）。最终选中的服务商及其得分，连同所有备选方案，均记录在决策追踪日志中。

选择器在评分前会对宽泛的简报上下文进行归一化处理。若 Agent 掌握的信息仅类似于"具有角色一致性的 Pixar 风格动画短片"，选择器会将其扩展为对评分器友好的意图与风格信号，而无需事先提供完美格式化的 task_context。

选择器的输出结果还会呈现所选服务商的 agent_skills，以便 Agent 在编写提示词之前，可以立即读取对应的 Layer 3 服务商技能文件。

决策审计追踪

每一项重大创意与技术决策——服务商选择、风格/策略书选择、音乐曲目、配音选择、渲染器系列、任何回退或降级——均以"已考虑的备选方案、置信度评分、决策理由"的形式记录在案。累积的决策日志贯穿所有阶段持久保存，让你可以精确追溯输出结果呈现当前面貌的每一个原因。

预算控制

执行前估算 — 查看预计费用
预留预算 — 在调用前锁定资金
执行后核算 — 记录实际支出
可配置模式 — observe（仅追踪）、warn（记录超支）、cap（硬性上限）
单次操作审批 — 超过阈值时暂停等待确认（默认：$0.50）
总预算上限 — 默认 $10，可完全自定义

不会有意外账单。Agent 会在花费之前告知你费用。

Agent 兼容性

OpenMontage 可与任何能够读取文件并执行 Python 的 AI 编程助手配合使用。项目内置了针对以下平台的专属指令文件：

| 平台 | 配置文件 |

| Claude Code | CLAUDE.md |

| Cursor | CURSOR.md + .cursor/rules/ |

| GitHub Copilot | COPILOT.md + .github/copilot-instructions.md |

| Codex | CODEX.md |

| Windsurf | .windsurfrules |

所有平台文件均指向共享的 AGENT_GUIDE.md（操作指南与 Agent 契约）和 PROJECT_CONTEXT.md（架构参考文档）。

即将推出： 通过 Ollama 和 LM Studio 支持本地 LLM——无需任何云端 LLM 即可运行完整的生产流水线。

贡献指南

OpenMontage 专为扩展而生。最常见的两类贡献方式：

添加新工具

在对应的 tools/ 子目录下创建一个 Python 文件
继承 BaseTool 并实现工具契约
注册表会自动发现该工具，无需手动注册
如果工具需要使用说明，可添加对应的技能文件

添加新流水线

在 pipeline_defs/ 中创建一个 YAML 清单文件
在 skills/pipelines/ / 中创建阶段导演技能文件
引用现有工具——如有需要，也可添加新工具

完整技术参考请查阅 docs/ARCHITECTURE.md，完整服务商指南（含配置说明、定价、免费额度）请查阅 docs/PROVIDERS.md，Agent 契约请查阅 AGENT_GUIDE.md。

加入社区

我们使用 GitHub Discussions 分享作品与想法：

Show and Tell — 分享你制作的视频、效果出色的提示词，或你发现的创意工作流
Ideas — 建议新的流水线、工具、风格策略书或集成方案
Q&A — 就配置、流水线或故障排查提出问题

做了什么酷炫的东西？发到 Show and Tell 吧——我们很期待看到你的作品。

联系方式

如需获取更新、发布动态及幕后构建笔记，请关注 @calesthioailabs。

如需提交 Bug、功能请求及工作流讨论，请使用 GitHub Issues 和 GitHub Discussions，以确保所有内容保持可见且可跟进。

测试

# Run contract tests (no API keys needed) make test-contracts # Run all tests make test

许可证

GNU AGPLv3

OpenMontage — 由你的 AI 助手编排，具备真实质量保障的生产级视频工具。

如果这个项目对你有帮助，点一颗 Star 将对我们意义重大——这也能帮助更多人发现它。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

AI Agent Harness故障自愈：自动恢复机制

首先，我们得明确几个在全文中会反复出现、必须先建立共识的极简定义AI Agent：一个具备“感知（Perceive）- 思考（Reason）- 行动（Act）- 记忆（Memory）”四阶闭环能力的智能体，它不是单个大模型，而是由 LLM/ChatGLM/Qwen 等大模型底座、工具链调用模块、长期/短期记忆系统、对话/任务状态机、多模态感知接口等组件拼接而成的“智能协作单元”。：我更愿意把它翻译

龙虾开发者社区

AI Agent Harness Engineering 的定价模型：从成本导向到价值导向的完整策略设计

AI Agent Harness Engineering是一个新兴领域，专注于设计、构建和维护能够有效"驾驭"AI智能体的框架、工具和方法论。它涵盖了从智能体的部署、监控、治理到价值评估的全生命周期管理。随着企业对AI Agent依赖程度的增加，如何为这些"驾驭"系统定价，成为了一个既关键又复杂的问题。传统的软件定价模型（如许可证、订阅制）在AI时代面临着新的挑战。AI Agent的运行成本不仅包

龙虾开发者社区

企业级AI Agent：定制化与集成挑战

在过去的几年里，人工智能技术取得了令人瞩目的进展，特别是大语言模型（LLM）的出现，为AI应用带来了革命性的变化。AI Agent作为一种能够自主感知环境、做出决策并执行任务的智能体，正在从实验室走向实际应用，尤其是在企业环境中。本文的目的是帮助读者理解企业级AI Agent的概念，认识到在企业环境中构建和部署AI Agent所面临的独特挑战，特别是定制化和系统集成方面的挑战。我们将提供实用的指导