人工智能技能说明书

数据来源:SkillsBot 人工智能分类(第一页,共 12 个 Skill)
整理日期:2026 年 3 月 14 日


技能总览

Skill 名称 功能描述 痛点解决 下载地址
OpenClaw 媒体生成器 通过 AIsa API 统一调用 Google Gemini 和阿里通义万相模型,支持文本生成图片及文本生成视频(异步轮询),提供 Python 客户端脚本一键完成生成与下载 消除多平台 API 密钥管理负担;自动处理视频异步任务轮询;自动解析 base64 图片并保存本地文件 查看详情
OpenClaw 智能搜索 面向 AI 智能体和开发者的多源智能搜索 API,整合网络搜索、学术论文检索与 Tavily 搜索,通过"发现+推理"两阶段和置信度评分引擎输出可信结果 解决信息可信度缺乏量化评估、单一来源视角片面、多源结果无一致性分析及开发者手动集成多 API 的繁琐问题 查看详情
OpenClawMastery — 完整代理工程与操作系统 覆盖 AI 智能体设计、部署、优化和扩展的 12 阶段完整操作系统,提供即用型模板(SOUL.mdAGENTS.md)、心跳自动化、多智能体协作及成本优化策略 解决智能体开发缺乏系统方法、个性不一致、记忆管理混乱、多智能体协作复杂、运营成本难控及安全密钥管理等核心痛点 查看详情
智能体开发 Claude Code 插件中自主智能体(Agent)的完整开发指南,涵盖 YAML 前置元数据配置、系统提示词设计、触发条件定义、工具权限管理及部署测试全流程 解决复杂任务处理困难、智能体触发不精确、行为不可控、工具权限过大及开发效率低下的问题 查看详情
机器学习管道自动化 使用 Airflow、Kubeflow、MLflow 编排从数据摄入到生产部署的端到端 ML 工作流,内置错误重试、任务超时控制、失败告警和数据质量验证,实现可重现的自动化管道 解决管道静默失败无警报、任务依赖错误、DAG 配置不显示、环境变量硬编码、资源无限期占用及实验可重现性差等常见痛点 查看详情
提示词工程师 专注于 AI 提示词的设计与优化,运用少样本学习、思维链、结构化输出等系统化技术,提供标准化模板和角色化提示方法,提升大语言模型响应效率与准确性 解决 AI 模型响应质量不稳定、提示词设计效率低下(每次从零摸索)及复杂多步骤任务难以有效引导的问题 查看详情
AI 图像生成工具 基于 AI SDK 集成 OpenAI、Google Gemini 和阿里云 DashScope 三大平台的图像生成能力,支持文生图、图生图(参考图再创作)、自动提供商选择、并行生成及持久化配置 解决多平台 API 集成复杂、提供商选择困难、每次调用重复配置繁琐及大批量生成效率瓶颈等问题 查看详情
AI 语音克隆 集成 Kokoro TTS、DIA、Chatterbox、Higgs、VibeVoice 等多个 TTS 模型,支持多音色、情感表达、多口音、长文本分块处理及多角色对话生成,可与视频合并制作数字人配音 解决传统 TTS 语音生硬机械、音色与场景单一、长文本处理质量下降、多角色交互模拟困难及多媒体工作流集成繁琐的问题 查看详情
向量搜索 提供在高维向量空间中进行相似性搜索与最近邻查找的完整指南,支持 HNSW、IVF 等索引算法、多种相似性度量、GPU 加速、元数据过滤、混合搜索及水平分片扩展 解决高维数据搜索效率低下、大规模数据可扩展性差、搜索质量和精度不足及系统性能与资源消耗难以优化的问题 查看详情
OCR 空间自动化 通过 Rube MCP(模型控制协议服务器)自动化 OCRspace 光学字符识别任务,执行"发现工具 → 检查连接 → 执行任务"三步式工作流,支持会话管理和批量操作 解决手动执行 OCR 任务效率低下、直接集成 OCRspace API 复杂、第三方工具模式变化导致硬编码过时及连接状态不确定引发任务失败等问题 查看详情
OpenAI Whisper 语音转文字工具 本地化 CLI 工具,基于 OpenAI Whisper 开源模型将音频文件(mp3、m4a 等)转换为文本或字幕(.srt),支持多模型选择(turbo/medium)和多语言翻译,完全离线运行 解决因网络限制、API 调用费用或隐私顾虑无法使用云端语音识别的问题;保障敏感音频本地处理安全;灵活输出纯文本或字幕文件 查看详情
纳米香蕉图像提示生成技能 专为 Gemini 2.5 Flash Image 模型设计的提示词生成工具,提供结构化模板(主体/环境/照明/氛围/技术细节/纵横比六大组件)、多场景示例、多轮对话式编辑及验证清单 解决提示词过于模糊或通用、风格冲突指示不明确、文本渲染失败、多轮编辑混乱及生成图像与预期不符的问题 查看详情

技能详细说明

1. OpenClaw 媒体生成器

功能描述

通过 AIsa API 一键调用 Google Gemini(图片生成)和阿里通义万相 Wan 2.6(视频生成)两大模型,只需一个 AISA_API_KEY 环境变量即可完成图片与视频的生成、轮询及本地保存。配套提供功能完整的 Python 客户端脚本 media_gen_client.py

解决的痛点

  • 无需分别研究 Google 和阿里两套 API 文档,统一接口一次搞定
  • 只需管理一个 API 密钥,告别多平台密钥混乱
  • 视频异步任务自动轮询状态,无需手动编写轮询逻辑
  • 自动解析 base64 图片数据并保存为本地文件

下载地址:https://www.skillsbot.cn/skill/576


2. OpenClaw 智能搜索

功能描述

多源智能搜索 API,并行整合网络搜索、学术论文检索(支持年份过滤)、智能混合搜索和 Tavily 高级搜索四大来源,通过 AIsa Explain 引擎进行"发现 + 推理"两阶段元分析,输出 0–100 分置信度评分及综合答案,适用于 AI 应用、学术研究、市场分析和新闻聚合。

解决的痛点

  • 传统搜索缺乏可信度量化评估,用户无法判断信息可靠性
  • 单一信息源导致视角片面,无法全面覆盖问题
  • 多源信息冲突时缺乏一致性分析机制
  • 开发者手动集成多个搜索 API 过程繁琐低效

下载地址:https://www.skillsbot.cn/skill/577


3. OpenClawMastery — 完整代理工程与操作系统

功能描述

基于 AfrexAI 团队运行 9 个以上生产环境智能体的实战经验,提供从规划到扩展的 12 阶段完整操作系统。核心亮点包括:即用型 SOUL.md/AGENTS.md 模板、三层内存架构(每日笔记/长期记忆/活跃上下文)、心跳自动化系统、多智能体协作配置和 100 分制成熟度评估模型。

解决的痛点

  • 智能体开发缺乏系统化方法,导致临时碎片化方案
  • 智能体人格和行为难以保持一致性
  • 三层内存架构解决智能体"遗忘"和上下文混乱
  • 7×24 小时自主运行,减少人工干预
  • 模型选择策略和 Token 成本优化指南
  • 密钥管理最佳实践防止安全风险

下载地址:https://www.skillsbot.cn/skill/752


4. 智能体开发

功能描述

Claude Code 插件中自主智能体的完整开发指南。基于 YAML 前置元数据(namedescriptionmodeltools 等)定义智能体文件格式,通过含 <example> 块的描述字段精准控制触发条件,支持 AI 辅助生成和手动创建两种开发方式,内置验证脚本和最佳实践清单。

解决的痛点

  • 复杂多步骤任务处理困难,无结构化框架可循
  • 通用描述导致智能体误触发或漏触发
  • 行为模糊、输出格式不统一,难以保证一致性
  • 工具权限过大带来潜在安全风险
  • 从零开发效率低,缺乏模板和示例参考

下载地址:https://www.skillsbot.cn/skill/3851


5. 机器学习管道自动化

功能描述

深度集成 Airflow(通用工作流)、Kubeflow(Kubernetes 原生 ML)和 MLflow(实验跟踪),编排数据收集→验证→特征工程→模型训练→评估→部署→监控的端到端 ML 工作流。支持时间触发和事件触发,内置并行任务、条件执行、错误重试和数据质量验证。

解决的痛点

  • 管道静默失败,问题无法被及时感知
  • XCom 传递失败导致任务间依赖崩溃
  • DAG 文件存在但因语法错误不在 UI 中显示
  • 本地路径硬编码在生产环境中失效
  • 任务无限期挂起占用计算资源
  • 训练数据质量不可控,缺乏验证步骤
  • 超参数和指标未系统记录,无法复现实验

下载地址:https://www.skillsbot.cn/skill/6671


6. 提示词工程师

功能描述

系统化的 AI 提示词设计与优化工具,运用少样本学习(Few-shot)、思维链(Chain-of-Thought)、结构化输出等先进技术,提供标准化模板、角色化提示设计和 /prompt 命令快速触发,兼容 Codex 和 Claude Code 等主流大语言模型。

解决的痛点

  • AI 模型响应质量不稳定,缺乏可靠性
  • 提示词设计需要每次从零摸索,效率低下
  • 复杂多步骤推理任务难以有效引导模型完成

下载地址:https://www.skillsbot.cn/skill/3227


7. AI 图像生成工具

功能描述

基于 AI SDK 整合 OpenAI、Google Gemini 和阿里云 DashScope 三大平台 API,支持文生图、图生图("把图中的猫变成蓝色"式参考图再创作)、最高 4K 图像输出、自动提供商选择机制和并行生成模式,通过 EXTEND.md 实现持久化个性配置。

解决的痛点

  • 分别集成多个 AI 图像 API 过程繁琐复杂
  • 不清楚该选哪个提供商时,自动选择机制兜底
  • 每次调用重复输入参数,通过配置文件预设默认值
  • 大批量图片生成速度慢,并行生成模式显著提速

下载地址:https://www.skillsbot.cn/skill/7493


8. AI 语音克隆

功能描述

基于 inference.sh CLI 工具集成 Kokoro TTS、DIA、Chatterbox、Higgs、VibeVoice 五大 TTS 模型,提供美式/英式英语多种预定义音色(如 af_sarah 温暖友好、am_michael 专业权威),支持语速控制(0.8x–1.2x)、长文本分块合并、多角色对话生成及视频配音合并。

解决的痛点

  • 传统 TTS 语音生硬机械,缺乏自然情感表达
  • 单一音色和场景无法满足多样内容需求
  • 长文本处理导致质量下降或段落不连贯
  • 创建对话/访谈内容需要多个真人配音员
  • 为视频添加高质量配音的工作流集成复杂

下载地址:https://www.skillsbot.cn/skill/8960


9. 向量搜索

功能描述

提供在高维向量空间中进行相似性搜索和最近邻查找的完整技术指南,涵盖 Flat(精确)和 HNSW/IVF(近似)索引算法、余弦相似度/欧几里得距离/点积等相似性度量、GPU 加速、混合搜索(关键词 + 向量)、重排优化、水平分片及量化压缩,并提供 Recall@K、MAP 等评估指标。

解决的痛点

  • 传统方法在高维空间中搜索效率极低
  • 海量向量数据无法水平扩展和高效管理
  • 单一搜索方式导致结果相关性和精度不足
  • 计算资源消耗大、搜索速度慢难以优化

下载地址:https://www.skillsbot.cn/skill/5492


10. OCR 空间自动化

功能描述

通过 Rube MCP 服务器自动化 OCRspace 光学字符识别任务,执行"搜索工具 → 检查连接 → 执行任务"三步式标准化工作流,支持会话 ID 生成与重用、批量操作(RUBE_REMOTE_WORKBENCH)及连接状态内置管理,无需 API 密钥即可配置。

解决的痛点

  • 手动执行 OCR 任务效率低下
  • 直接对接 OCRspace API 集成复杂度高
  • 第三方工具 API 模式变化导致硬编码参数过时失效
  • 认证失效或连接中断导致任务静默失败

下载地址:https://www.skillsbot.cn/skill/9298


11. OpenAI Whisper 语音转文字工具

功能描述

本地化 CLI 工具,基于 OpenAI 官方开源 Whisper 模型进行音频转写,支持 .mp3、.m4a 等多种格式,输出 .txt 纯文本或 .srt 字幕文件,可选 turbo/medium 等不同模型平衡速度与精度,通过 --task translate 参数直接翻译为英文,首次使用后模型自动缓存,完全离线运行。

解决的痛点

  • 因网络限制、API 费用或隐私顾虑无法使用云端语音识别
  • 敏感音频内容上传至外部服务器存在隐私泄露风险
  • 需要生成视频字幕(.srt)时缺少便捷工具
  • 多语言内容需要翻译转写,传统工具需多步操作

下载地址:https://www.skillsbot.cn/skill/534


12. 纳米香蕉图像提示生成技能

功能描述

专为 Gemini 2.5 Flash Image 模型优化的提示词生成工具,将提示结构化为"主体与动作/环境/照明/氛围/技术细节/纵横比"六大组件,覆盖摄影、艺术、产品摄影、风景、抽象、文本渲染等多场景,支持短(10–20 词)/中(50–100 词)/长(100–200 词)三种长度及多轮对话式迭代编辑,内置验证清单和故障排除指南。

解决的痛点

  • 提示词过于模糊或通用,导致生成图像质量低
  • 风格描述混合不兼容词汇,产生风格冲突
  • 文本渲染失败,字符无法正确显示在图像中
  • 多轮编辑中混入过多变更,导致提示失去上下文
  • 生成图像与预期差距大,缺乏诊断和修复手段

下载地址:https://www.skillsbot.cn/skill/6662


分类汇总

能力方向 相关 Skill
多媒体生成(图片/视频/语音) OpenClaw 媒体生成器、AI 图像生成工具、AI 语音克隆、纳米香蕉图像提示生成技能
智能体与自动化 OpenClawMastery、智能体开发、机器学习管道自动化、OCR 空间自动化
搜索与检索 OpenClaw 智能搜索、向量搜索
提示词与 AI 工程 提示词工程师、纳米香蕉图像提示生成技能
语音与文字处理 OpenAI Whisper 语音转文字、AI 语音克隆

本文档整理自 SkillsBot 人工智能技能库,共收录第一页 12 个 Skill,完整库共 103 页。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐