创意内容生产：OpenClaw+Phi-3-vision自动生成短视频脚本

本文介绍了如何在星图GPU平台上自动化部署Phi-3-vision-128k-instruct镜像，实现短视频脚本的自动生成。该平台简化了多模态AI模型的配置流程，用户可通过本地API快速搭建创作环境，应用于从图片分析到完整脚本生成的全流程，显著提升内容生产效率。

bjackzjack

420人浏览 · 2026-04-02 01:28:10

bjackzjack · 2026-04-02 01:28:10 发布

创意内容生产：OpenClaw+Phi-3-vision自动生成短视频脚本

1. 为什么需要自动化短视频脚本创作

作为一个长期在短视频领域摸爬滚打的创作者，我深知创意枯竭的痛苦。每当深夜盯着空白文档发呆时，我总在想：如果能有个助手帮我完成从创意构思到脚本成型的全过程该多好。直到我发现了OpenClaw与Phi-3-vision的组合。

这个组合的神奇之处在于，它不仅能理解文字指令，还能处理图片素材。比如我只需要说"帮我生成一个关于露营的30秒短视频脚本，风格轻松幽默"，它就能自动输出分镜、台词甚至道具建议。更关键的是，整个过程完全在本地运行，我的创意素材不会上传到任何第三方平台。

2. 环境准备与模型对接

2.1 部署Phi-3-vision模型

我选择使用星图平台提供的Phi-3-vision-128k-instruct镜像，这个预装vllm和chainlit的镜像省去了大量配置工作。部署完成后，我得到了一个本地API端点：

http://localhost:8000/v1

这个端点将作为OpenClaw连接多模态模型的桥梁。Phi-3-vision的优势在于它能同时处理图像和文本，这对短视频脚本创作至关重要——我可以直接丢给它参考图片，让它基于视觉内容生成创意。

2.2 配置OpenClaw连接本地模型

在OpenClaw的配置文件(~/.openclaw/openclaw.json)中，我添加了以下模型配置：

{
  "models": {
    "providers": {
      "phi3-vision-local": {
        "baseUrl": "http://localhost:8000/v1",
        "apiKey": "no-key-required",
        "api": "openai-completions",
        "models": [
          {
            "id": "phi-3-vision",
            "name": "Local Phi-3 Vision",
            "contextWindow": 128000,
            "maxTokens": 8192
          }
        ]
      }
    }
  }
}

配置完成后，记得重启OpenClaw网关服务：

openclaw gateway restart

3. 实战：从创意到脚本的全流程

3.1 素材收集与创意激发

我建立了一个素材库文件夹，里面存放着各种分类好的图片和视频片段。当需要创作新内容时，我只需对OpenClaw说：

"请分析~/素材库/旅行/露营文件夹下的图片，生成5个短视频创意方向，每个方向包含核心梗概和情绪基调。"

Phi-3-vision会分析图片内容，返回类似这样的创意：

"露营囧事"：搞笑风格，展示新手露营者的各种失误瞬间
"星空下的对话"：温情路线，讲述露营时的人际关系故事
"极简露营指南"：实用教程，用最少的装备享受自然

3.2 脚本自动生成

选定创意方向后，更精细的指令可以生成完整脚本：

"基于'露营囧事'创意，生成一个45秒的短视频脚本，包含分镜描述、角色对话和道具清单。主角是两位都市白领，风格偏向夸张喜剧。"

生成的脚本会包含详细的分镜表：

镜号	时长	场景	画面描述	台词
1	3s	露营地	主角A自信满满搭帐篷	"看我的，10分钟搞定！"
2	5s	同上	帐篷歪斜倒塌	"这...一定是说明书印错了！"

同时还会附上道具清单和拍摄建议，比如"准备一个容易倒塌的廉价帐篷作为喜剧道具"。

4. 效率提升与创意优化

4.1 批量生成与优选

我开发了一个工作流，让OpenClaw一次性生成多个脚本变体：

for i in {1..5}; do
  openclaw ask "生成第$i版露营囧事脚本，调整喜剧程度从温和到夸张"
done

然后使用OpenClaw的对比功能，快速筛选出最满意的版本。这种"生成-筛选"模式极大地拓展了我的创意边界。

4.2 视觉化脚本预览

更令人惊喜的是，Phi-3-vision可以根据脚本自动生成分镜预览图。我只需请求：

"为镜号3生成一个画面示意图，展现主角被蚊虫围攻的滑稽场景"

模型会返回一张简笔画风格的示意图，帮助我更好地可视化最终效果。虽然不能直接用于成片，但对前期规划非常有价值。

5. 实际使用中的经验与调整

5.1 提示词优化技巧

经过多次尝试，我发现有效的提示词需要包含：

明确的情感基调：是搞笑、温馨还是悬疑？
具体的结构要求：是否需要分镜表、台词或道具清单？
参考素材指引：指明使用哪些文件夹的素材作为创意来源

比如这个提示词效果就很好：

"以~/素材库/美食/火锅图片为参考，生成1分钟美食探店脚本。要求：包含3个特色镜头描述、主播口语化台词、突出食材特写。风格：轻松活泼，面向年轻观众。"

5.2 常见问题处理

有时模型会生成过于天马行空的创意，我的解决方案是：

在提示词中加入现实约束："预算有限，需要可实拍的简单场景"
设置创意评分机制："为每个创意打可行性分数(1-5分)"
建立黑名单："避免出现高空、水下等专业拍摄场景"

通过OpenClaw的skill机制，我将这些约束封装成了可复用的过滤模块。

6. 安全与隐私考量

所有创作过程都在本地完成，这是我的核心需求：

原始素材不会上传到云端
生成的脚本自动保存到加密文件夹
模型访问记录本地留存审计

OpenClaw的本地化特性完美匹配这些要求，相比云端服务，我不用担心创意泄露或被平台滥用。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

systemd 托管 Agent 服务的三大陷阱与观测实践

龙虾开发者社区

WorkBuddy 身份主键设计：为何你的 Agent 总认错人？

龙虾开发者社区

Agent 日志解析乱码危机：GBK 与 UTF-8 混编时的沙箱防御策略

龙虾开发者社区

所有评论(0)

查看更多评论

bjackzjack

@weixin_34945060

已为社区贡献20条内容

创意内容生产：OpenClaw+Phi-3-vision自动生成短视频脚本

bjackzjack

创意内容生产：OpenClaw+Phi-3-vision自动生成短视频脚本

1. 为什么需要自动化短视频脚本创作

2. 环境准备与模型对接

2.1 部署Phi-3-vision模型

2.2 配置OpenClaw连接本地模型

3. 实战：从创意到脚本的全流程

3.1 素材收集与创意激发

3.2 脚本自动生成

4. 效率提升与创意优化

4.1 批量生成与优选

4.2 视觉化脚本预览

5. 实际使用中的经验与调整

5.1 提示词优化技巧

5.2 常见问题处理

6. 安全与隐私考量

所有评论(0)

温馨提示：您尚未绑定手机号

bjackzjack