Skill生成能力测试

pqk6V6Vep

235人浏览 · 2026-04-24 23:32:31

pqk6V6Vep · 2026-04-24 23:32:31 发布

考题：创建一个"短视频生成 Agent"

为了测试上限，我没有选择写"贪吃蛇"这种简单代码，而是设计了一个稍微复杂点的多步骤 Agent 任务。

任务目标：编写一个 Skill，让用户输入一个话题，全自动生成一个短视频。

核心流程 (Pipeline)：

创意策划：根据用户话题，结合预设主题，生成短视频脚本和分镜文案。
视觉设计：根据分镜内容，生成 AI 绘画提示词。
素材生产：调用绘图接口生成图片，生成语音。
视频合成：将图片、语音、字幕自动剪辑合成最终视频。

Video Agent Pipeline

之前我在扣子上用工作流的形式，搞过这一套，所以今天整合想试试写一个这个的skill，比搭工作流快多少

扣子工作流

这不仅考察代码生成能力，更考察工具对复杂业务逻辑的理解、多文件工程的组织以及错误处理能力。

3. 第一回合：CodeBuddy —— 极速但略显粗糙的"直觉派"

CodeBuddy 给我的第一印象是快。

3.1 创建过程

我输入了完整的 Prompt，CodeBuddy 迅速理解了意图，并开始创建 Skill 任务。

Skill创建

它首先创建了一个 README.md 文档来梳理思路，这点好评。

文档先行

紧接着，它在 5 分钟内就完成了代码编写，并提示我可以开始测试。这可比搭工作流快多了。

极速完成

3.2 结果分析

但在代码审查和实际运行中，我发现了一些问题：

结构过于简单：整个 Skill 的文件结构非常扁平，缺乏模块化设计。

结构简单

生成的工程目录非常"清爽"，但也暴露了逻辑的单薄：

/project
├── main.py          # 主逻辑
├── utils.py         # 工具函数
├── requirements.txt # 依赖
└── README.md        # 说明文档

Hardcode 问题：最致命的是，它将生成视频的 Prompt 写死在脚本里了，没有根据用户输入动态生成。

我在检查 main.py 时发现了这样尴尬的代码：
```
# CodeBuddy 生成的代码片段
def generate_script(topic):
    # 错误：无论用户输入什么 topic，提示词里的 theme 都是固定的
    prompt = "写一个关于【人工智能】的短视频脚本..." 
    return call_llm(prompt)
```
这除了造成改动不方便，也意味着它退化成了一个"模板填充机"，而非真正的 Agent。
风格幻觉：生成的视频风格不可控，最后一个图片，居然变成了漫画风，而且与文案匹配度一般（奶奶呢？/emoji笑）。
字幕翻车：自动烧录字幕失败，不得不通过播放器挂载外挂字幕。

小结：CodeBuddy 赢在了速度和交互的流畅度，但在解决复杂问题的"精度"和"工程化"上，还有待打磨，而且中间脚本错误过多，他花了大量时间在修复脚本错误上。

4. 第二回合：Trae —— 稳健但同样有局限的"工程派"

首先说明一下，TraeCN要使用skill能力，必须在“solo模式”，这个情况下他基本上全面接管，你要动手的机会不多，整个过程顶多点一两次确认按钮，这个比codeBuddy体验好多了。

4.1 创建过程

Trae 的第一步是列出详细的任务清单，虽然它没有像 CodeBuddy 那样先写文档，但它的脚本数量明显更多。

任务清单

它花费了约 4 分钟完成，生成了 7 个脚本文件，不仅有主逻辑，还有专门的配置、工具类，工程结构明显优于 CodeBuddy。

工程结构

4.2 结果分析

实际运行下来，Trae 的亮点和槽点并存：

字幕烧录成功：这是它比 CodeBuddy 强的地方，ffmpeg 的参数调教得更准，字幕完美烧录进视频。

查看 video_maker.py，发现它生成了非常标准的 FFmpeg 滤镜链：
```
cmd = [
    "ffmpeg", "-i", input_video, 
    "-vf", f"subtitles={subtitle_file}:force_style='Fontname=SimHei,FontSize=24'",
    "-c:a", "copy", output_video
]
```
同样的硬伤：令我意外的是，Trae 同样犯了"提示词写死"的错误。看来对于复杂的 Prompt Engineering 逻辑，目前的 AI 在没有明确指引下，都倾向于偷懒。

在 config.py 中，我找到了罪魁祸首：
```
# Trae 的配置文件
VIDEO_PROMPT = "A futuristic city with flying cars..." # 硬编码在配置里
```
脚本过多，虽然生成速度快了，但是大模型利用能力下降，简单问题复杂化了。
文案生成：果然，Trae生成的文案差多了，显得比较生硬，也没什么文风。可能是因为它把 Prompt 拆散到了不同文件，导致上下文丢失。
尺寸问题：生成的视频尺寸与预期有偏差，横竖屏处理不够智能。

TTS 的调用也不如 CodeBuddy。CodeBuddy 调用了 edge-tts 这种高质量库，而 Trae 似乎直接调用了系统原本的 pyttsx3，生成的语音是很机械化的，毫无感情色彩。感觉是参数没有调配，按理说两个都应该是调用的 Windows 本地 TTS，但效果天差地别。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

我把刘备一生做成了可播放的高德地图，还把整套方法封装成了 Skill

龙虾开发者社区

邓立国智能体开发3本套书的学习路线：以LangChain＋LangGraph为核心的实战进阶

已成为构建生产级智能体的“黄金组合”：LangChain 负责模型调用、工具集成、RAG 等基础能力，LangGraph 则解决复杂工作流编排、状态管理、多 Agent 协作等高级问题。计算机博士邓立国老师的三本著作——《AI Agent智能体开发实践》《LangGraph开发AI Agent实践》《多模态智能体开发实践》，恰好覆盖了从入门到进阶再到多模态实战的完整路径。对应书籍：《AI Ag