OpenClaw 大语言模型接入指南
本文对比分析了在线与本地大语言模型的选型方案。在线模型方面,详细介绍了Moonshot Kimi、OpenAI GPT-4o、Anthropic Claude等主流商业API的特点、价格和适用场景;本地模型部分则涵盖了Llama3、Qwen2.5、DeepSeek等开源方案的部署要求和性能表现。通过成本、性能、隐私等维度的对比,提供了混合架构建议:复杂任务使用在线API,日常处理采用本地模型。文档
目录
一、在线模型 (Cloud APIs)
1.1 主流商业模型概览
|
供应商 |
模型 |
擅长领域 |
上下文长度 |
中文支持 |
OpenClaw支持 |
|
Moonshot |
kimi-coding/k2p5 |
代码生成、长文本 |
256K |
⭐⭐⭐⭐⭐ |
✅ 原生支持 |
|
Moonshot |
kimi-chat |
通用对话、长文本 |
200K |
⭐⭐⭐⭐⭐ |
✅ 原生支持 |
|
OpenAI |
GPT-4o |
通用、多模态 |
128K |
⭐⭐⭐⭐ |
✅ API兼容 |
|
OpenAI |
GPT-4o-mini |
轻量级通用 |
128K |
⭐⭐⭐⭐ |
✅ API兼容 |
|
OpenAI |
o1/o3 |
推理、数学 |
200K |
⭐⭐⭐⭐ |
✅ API兼容 |
|
Anthropic |
Claude 3.5 Sonnet |
代码、分析 |
200K |
⭐⭐⭐⭐ |
✅ API兼容 |
|
Anthropic |
Claude 3 Opus |
复杂任务 |
200K |
⭐⭐⭐⭐ |
✅ API兼容 |
|
|
Gemini 2.0 Pro |
多模态、长文本 |
1M |
⭐⭐⭐⭐ |
✅ API兼容 |
|
|
Gemini 2.0 Flash |
快速响应 |
1M |
⭐⭐⭐⭐ |
✅ API兼容 |
|
DeepSeek |
DeepSeek-V3 |
代码、推理 |
64K |
⭐⭐⭐⭐⭐ |
✅ API兼容 |
|
DeepSeek |
DeepSeek-R1 |
推理专项 |
64K |
⭐⭐⭐⭐⭐ |
✅ API兼容 |
|
Alibaba |
Qwen2.5-Max |
通用、代码 |
128K |
⭐⭐⭐⭐⭐ |
✅ API兼容 |
|
Alibaba |
Qwen2.5-Coder |
代码专项 |
128K |
⭐⭐⭐⭐⭐ |
✅ API兼容 |
|
01.AI |
Yi-Lightning |
通用对话 |
128K |
⭐⭐⭐⭐⭐ |
✅ API兼容 |
|
Zhipu |
GLM-4 |
通用、Agent |
128K |
⭐⭐⭐⭐⭐ |
✅ API兼容 |
1.2 详细模型分析
1.2.1 Moonshot (Kimi)
模型系列:
kimi-coding/k2p5- 编程专用模型kimi-chat- 通用对话模型
核心优势:
- ✅ 超长上下文: 支持200K-256K tokens,适合长文档分析
- ✅ 中文优化: 国内团队,中文理解和生成能力顶尖
- ✅ 代码能力: Kimi Coding在代码生成和调试上表现优异
- ✅ 文件处理: 支持直接上传PDF、Word、代码文件分析
适用场景:
- 长文档分析、论文阅读
- 代码生成、代码审查
- 中文内容创作
- 知识库问答
收费参考 (2026.03):
|
模型 |
Input |
Output |
备注 |
|
kimi-coding/k2p5 |
¥0.012/1K tokens |
¥0.048/1K tokens |
缓存命中50%折扣 |
|
kimi-chat |
¥0.012/1K tokens |
¥0.048/1K tokens |
- |
OpenClaw配置:
models:
kimi-coding:
provider: kimi-coding
model: k2p5
api_key: ${KIMI_API_KEY}
base_url: https://api.moonshot.cn/v1
1.2.2 OpenAI
模型系列:
gpt-4o- 旗舰多模态模型gpt-4o-mini- 轻量高速版o1/o3- 推理专用模型(思维链)
核心优势:
- ✅ 多模态: 支持文本、图像、音频输入
- ✅ 工具调用: Function Calling能力顶尖
- ✅ 生态系统: 最完善的API生态和文档
- ✅ o系列推理: 在数学、逻辑推理上表现突出
适用场景:
- 多模态应用(图像理解+生成)
- 复杂工具调用和Agent系统
- 需要最强推理能力的任务
- 国际化产品
收费参考:
|
模型 |
Input |
Output |
备注 |
|
GPT-4o |
$2.50/1M tokens |
$10/1M tokens |
- |
|
GPT-4o-mini |
$0.15/1M tokens |
$0.60/1M tokens |
高性价比 |
|
o1 |
$15/1M tokens |
$60/1M tokens |
推理成本高 |
|
o3-mini |
$1.10/1M tokens |
$4.40/1M tokens |
轻量推理 |
OpenClaw配置:
models:
gpt-4o:
provider: openai
model: gpt-4o
api_key: ${OPENAI_API_KEY}
base_url: https://api.openai.com/v1
1.2.3 Anthropic (Claude)
模型系列:
claude-3-5-sonnet-20241022- 平衡型claude-3-opus-20240229- 最强能力claude-3-haiku- 轻量快速
核心优势:
- ✅ 代码能力: 在代码理解和生成上业界顶尖
- ✅ 长上下文: 200K上下文,适合复杂分析
- ✅ 安全性: 对有害请求拒绝率较高
- ✅ Artifacts: 支持生成复杂文档和代码预览
适用场景:
- 复杂代码生成和重构
- 长文档深度分析
- 需要高安全性的应用
- 技术写作
收费参考:
|
模型 |
Input |
Output |
备注 |
|
Claude 3.5 Sonnet |
$3/1M tokens |
$15/1M tokens |
- |
|
Claude 3 Opus |
$15/1M tokens |
$75/1M tokens |
最贵但最强 |
|
Claude 3 Haiku |
$0.25/1M tokens |
$1.25/1M tokens |
轻量 |
OpenClaw配置:
models:
claude-sonnet:
provider: anthropic
model: claude-3-5-sonnet-20241022
api_key: ${ANTHROPIC_API_KEY}
base_url: https://api.anthropic.com/v1
1.2.4 Google (Gemini)
模型系列:
gemini-2.0-pro-exp-02-05- 专业版gemini-2.0-flash- 快速版gemini-2.0-flash-lite- 轻量版
核心优势:
- ✅ 超长上下文: 1M tokens(业界最长)
- ✅ 多模态原生: 从底层设计支持图文音视频
- ✅ 免费额度: generous免费 tier
- ✅ Google生态: 与Google服务深度整合
适用场景:
- 超长文档分析(整本书、代码库)
- 视频内容理解
- 与Google服务结合的应用
- 成本敏感的长文本任务
收费参考:
|
模型 |
Input |
Output |
备注 |
|
Gemini 2.0 Pro |
$1.25/1M tokens |
$5/1M tokens |
视频额外计费 |
|
Gemini 2.0 Flash |
$0.075/1M tokens |
$0.30/1M tokens |
性价比极高 |
|
Gemini 2.0 Flash-Lite |
$0.0375/1M tokens |
$0.15/1M tokens |
最低成本 |
OpenClaw配置:
models:
gemini-pro:
provider: google
model: gemini-2.0-pro-exp-02-05
api_key: ${GOOGLE_API_KEY}
base_url: https://generativelanguage.googleapis.com/v1beta
1.2.5 DeepSeek
模型系列:
deepseek-chat(V3) - 通用对话deepseek-reasoner(R1) - 推理专用
核心优势:
- ✅ 性价比极高: 价格远低于GPT-4,性能接近
- ✅ 中文优化: 国内团队,中文理解优秀
- ✅ 开源生态: 部分模型开源,可本地部署
- ✅ R1推理: 媲美o1的推理能力,价格1/20
适用场景:
- 成本敏感的通用任务
- 需要推理能力的数学/逻辑任务
- 中文场景优先的应用
- 预算有限的初创项目
收费参考:
|
模型 |
Input |
Output |
备注 |
|
DeepSeek-V3 |
¥0.002/1K tokens |
¥0.008/1K tokens |
缓存命中¥0.001 |
|
DeepSeek-R1 |
¥0.004/1K tokens |
¥0.016/1K tokens |
推理模型 |
OpenClaw配置:
models:
deepseek-v3:
provider: openai-compatible
model: deepseek-chat
api_key: ${DEEPSEEK_API_KEY}
base_url: https://api.deepseek.com/v1
1.2.6 阿里巴巴 (Qwen)
模型系列:
qwen-max/qwen-plus/qwen-turbo- 通用系列qwen-coder-plus- 代码专用qwen-vl-max- 多模态视觉
核心优势:
- ✅ 中文顶尖: 中文理解和生成能力国内最强
- ✅ 开源生态: Qwen2.5系列全面开源
- ✅ 多模态: VL系列视觉理解能力强
- ✅ 阿里云: 国内访问稳定
适用场景:
- 中文NLP任务
- 阿里云生态应用
- 需要开源模型微调的场景
- 企业级中文应用
收费参考:
|
模型 |
Input |
Output |
备注 |
|
Qwen-Max |
¥0.02/1K tokens |
¥0.06/1K tokens |
最强 |
|
Qwen-Plus |
¥0.0008/1K tokens |
¥0.002/1K tokens |
性价比 |
|
Qwen-Coder |
¥0.002/1K tokens |
¥0.006/1K tokens |
代码 |
OpenClaw配置:
models:
qwen-max:
provider: openai-compatible
model: qwen-max
api_key: ${DASHSCOPE_API_KEY}
base_url: https://dashscope.aliyuncs.com/compatible-mode/v1
1.3 在线模型收费对比总表
|
供应商 |
模型 |
输入价格 |
输出价格 |
性价比评分 |
|
Moonshot |
Kimi K2.5 |
¥12/1M |
¥48/1M |
⭐⭐⭐⭐ |
|
OpenAI |
GPT-4o |
$2.5/1M |
$10/1M |
⭐⭐⭐ |
|
OpenAI |
GPT-4o-mini |
$0.15/1M |
$0.6/1M |
⭐⭐⭐⭐⭐ |
|
Anthropic |
Claude 3.5 Sonnet |
$3/1M |
$15/1M |
⭐⭐⭐ |
|
|
Gemini 2.0 Flash |
$0.075/1M |
$0.3/1M |
⭐⭐⭐⭐⭐ |
|
DeepSeek |
V3 |
¥2/1M |
¥8/1M |
⭐⭐⭐⭐⭐ |
|
DeepSeek |
R1 |
¥4/1M |
¥16/1M |
⭐⭐⭐⭐⭐ |
|
Alibaba |
Qwen-Plus |
¥0.8/1M |
¥2/1M |
⭐⭐⭐⭐ |
|
01.AI |
Yi-Lightning |
¥0.99/1M |
¥0.99/1M |
⭐⭐⭐⭐ |
💡 价格提示: 1M tokens ≈ 750,000个英文单词 ≈ 500,000个中文字符
二、本地模型 (Local/On-Premise)
2.1 主流本地模型概览
|
模型 |
参数规模 |
硬件要求 |
擅长领域 |
许可证 |
OpenClaw支持 |
|
Llama 3 |
8B/70B |
16GB/80GB+ VRAM |
通用对话 |
Llama 3.1 |
✅ Ollama/vLLM |
|
Qwen2.5 |
7B/14B/32B/72B |
16GB-160GB VRAM |
中文、代码 |
Apache 2.0 |
✅ Ollama/vLLM |
|
DeepSeek-V3 |
671B (MoE) |
多卡A100 |
代码、推理 |
DeepSeek |
✅ vLLM/ollama |
|
Mistral |
7B/8x7B/8x22B |
16GB-160GB VRAM |
通用、推理 |
Apache 2.0 |
✅ Ollama/vLLM |
|
Gemma |
2B/4B/9B/27B |
8GB-48GB VRAM |
轻量通用 |
Gemma |
✅ Ollama |
|
CodeLlama |
7B/13B/34B |
16GB-80GB VRAM |
代码生成 |
Llama 2 |
✅ Ollama |
|
Phi-4 |
14B |
32GB VRAM |
推理、数学 |
MIT |
✅ Ollama |
|
Yi-1.5 |
6B/9B/34B |
16GB-80GB VRAM |
中文、双语 |
Apache 2.0 |
✅ Ollama |
|
GLM-4 |
9B |
24GB VRAM |
中文Agent |
Model License |
✅ vLLM |
2.2 详细本地模型分析
2.2.1 Meta Llama 3/3.1
模型规格:
llama3.1:8b- 80亿参数,消费级GPU可跑llama3.1:70b- 700亿参数,需要大显存llama3.1:405b- 4050亿参数,企业级集群
核心优势:
- ✅ 英语能力顶尖: 英语理解和生成能力开源最强
- ✅ 工具调用: 原生支持Function Calling
- ✅ 生态完善: HuggingFace生态支持最好
- ✅ 许可证友好: 允许商用(需遵守Llama 3.1许可)
硬件需求:
|
模型 |
显存需求 |
推荐GPU |
量化 |
|
8B |
16GB |
RTX 4090 / A4000 |
Q4/Q8 |
|
70B |
80GB |
A100 80GB / 2xA40 |
Q4 |
|
405B |
500GB+ |
8xA100集群 |
Q4 |
适用场景:
- 英语为主的私有部署
- 需要工具调用的Agent系统
- 数据隐私要求高的场景
- 长期运行的服务
OpenClaw配置 (Ollama):
models:
llama3.1-local:
provider: ollama
model: llama3.1:8b
base_url: http://localhost:11434
2.2.2 Alibaba Qwen2.5
模型规格:
qwen2.5:7b- 轻量中文模型qwen2.5:14b- 平衡型qwen2.5:32b- 高性能qwen2.5:72b- 中文最强开源qwen2.5-coder:14b- 代码专用
核心优势:
- ✅ 中文最强开源: 中文理解和生成能力开源模型顶尖
- ✅ 长上下文: 支持128K上下文
- ✅ 代码能力: Coder版本代码能力接近GPT-4
- ✅ 工具调用: 支持Function Calling
- ✅ 完全开源: Apache 2.0许可证,可商用
硬件需求:
|
模型 |
显存需求 |
推荐GPU |
|
7B |
16GB |
RTX 4090 |
|
14B |
32GB |
A6000 / A100 40GB |
|
32B |
64GB |
A100 80GB |
|
72B |
160GB |
2xA100 80GB |
适用场景:
- 中文为主的私有部署
- 需要长上下文的中文应用
- 代码生成和审查
- 企业级中文Agent
OpenClaw配置:
models:
qwen2.5-local:
provider: ollama
model: qwen2.5:14b
base_url: http://localhost:11434
2.2.3 DeepSeek (本地部署)
模型规格:
deepseek-v3(671B MoE) - 专家混合模型deepseek-r1- 推理专用
核心优势:
- ✅ 性能顶尖: 媲美GPT-4的开源模型
- ✅ 推理能力: R1版本推理能力接近o1
- ✅ 成本优势: 本地部署长期使用成本低
- ✅ 开源可商用: 允许商用部署
硬件需求 (DeepSeek-V3):
|
配置 |
显存需求 |
说明 |
|
FP8完整版 |
800GB+ |
需16xA100/H100 |
|
INT8量化 |
400GB+ |
需8xA100 80GB |
|
INT4量化 |
200GB+ |
需4xA100 80GB |
⚠️ 注意: DeepSeek-V3需要专业级GPU集群,个人用户建议使用API
适用场景:
- 大型企业的私有化部署
- 需要GPT-4级别能力但数据不出域
- 高并发的生产环境
- 长期使用成本优化
OpenClaw配置 (vLLM):
models:
deepseek-local:
provider: openai-compatible
model: deepseek-ai/DeepSeek-V3
base_url: http://localhost:8000/v1
2.2.4 Mistral AI
模型规格:
mistral:7b- 轻量高效mixtral:8x7b- MoE专家混合mixtral:8x22b- 大MoE模型
核心优势:
- ✅ 高效推理: 7B参数达到13B性能
- ✅ MoE架构: 稀疏专家混合,推理成本低
- ✅ 欧洲团队: GDPR合规性好
- ✅ Apache 2.0: 完全开源可商用
硬件需求:
|
模型 |
显存需求 |
推荐GPU |
|
Mistral 7B |
16GB |
RTX 4090 |
|
Mixtral 8x7B |
48GB |
A6000 / A100 40GB |
|
Mixtral 8x22B |
140GB |
2xA100 80GB |
适用场景:
- 高效推理需求的场景
- 欧洲合规要求
- 需要MoE架构的应用
OpenClaw配置:
models:
mixtral-local:
provider: ollama
model: mixtral:8x7b
base_url: http://localhost:11434
2.2.5 微软 Phi-4
模型规格:
phi4:14b- 140亿参数
核心优势:
- ✅ 小模型大能力: 14B参数达到70B性能
- ✅ 推理能力: 数学和逻辑推理出色
- ✅ MIT许可证: 最宽松的开源许可
- ✅ 微软生态: 与Azure/Microsoft工具集成
硬件需求:
|
模型 |
显存需求 |
推荐GPU |
|
Phi-4 14B |
32GB |
A100 40GB / A6000 |
适用场景:
- 推理密集型任务
- 数学计算和代码生成
- 需要小体积高性能的场景
OpenClaw配置:
models:
phi4-local:
provider: ollama
model: phi4:14b
base_url: http://localhost:11434
2.3 本地模型部署工具
|
工具 |
特点 |
OpenClaw支持 |
适用场景 |
|
Ollama |
最简单,一键运行 |
✅ 原生支持 |
个人/小团队 |
|
vLLM |
高吞吐,生产级 |
✅ API兼容 |
企业/高并发 |
|
llama.cpp |
纯CPU运行,无GPU |
✅ API兼容 |
无显卡环境 |
|
TensorRT-LLM |
NVIDIA优化,最快 |
✅ API兼容 |
NVIDIA GPU |
|
Text Generation Inference |
HuggingFace官方 |
✅ API兼容 |
HF生态 |
Ollama 配置示例
# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取模型
ollama pull qwen2.5:14b
ollama pull llama3.1:8b
# 运行服务
ollama serve
# OpenClaw配置
models:
ollama-qwen:
provider: ollama
model: qwen2.5:14b
base_url: http://localhost:11434
ollama-llama:
provider: ollama
model: llama3.1:8b
base_url: http://localhost:11434
vLLM 配置示例
# 安装vLLM
pip install vllm
# 启动服务
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-14B-Instruct \
--tensor-parallel-size 1 \
--max-model-len 32768
# OpenClaw配置
models:
vllm-qwen:
provider: openai-compatible
model: Qwen/Qwen2.5-14B-Instruct
base_url: http://localhost:8000/v1
三、在线 vs 本地对比
3.1 综合对比表
|
维度 |
在线模型 |
本地模型 |
|
成本模式 |
按量付费,无固定成本 |
前期硬件投入,后期低成本 |
|
响应延迟 |
网络依赖,50-500ms |
本地计算,10-100ms |
|
数据隐私 |
数据上传云端 |
数据完全不出域 |
|
可用性 |
依赖供应商服务 |
完全自主可控 |
|
模型选择 |
供应商限定 |
任意开源模型 |
|
定制能力 |
有限(Prompt工程) |
可微调、可量化 |
|
扩展性 |
弹性扩缩容 |
受硬件限制 |
|
维护成本 |
低 |
高(需运维) |
|
离线使用 |
❌ 不可 |
✅ 可 |
3.2 成本对比分析
场景:月消耗100M tokens(约7500万字)
|
方案 |
月成本 |
说明 |
|
GPT-4o API |
$350 (约¥2,500) |
按量付费 |
|
DeepSeek-V3 API |
¥200 |
最便宜的API方案 |
|
本地 4090 |
¥0 (电费~¥100) |
硬件成本¥15,000(一次性) |
|
本地 A100 |
¥0 (电费~¥500) |
硬件成本¥80,000(一次性) |
成本平衡点:
- 月消耗 > 50M tokens:本地部署开始划算
- 月消耗 > 200M tokens:本地部署显著节省
3.3 性能对比
|
指标 |
在线模型 |
本地模型 (量化) |
|
推理速度 |
快 (专业优化) |
中等 (依赖硬件) |
|
输出质量 |
最优 |
接近 (Q4量化损失<5%) |
|
并发能力 |
高 |
受显存限制 |
|
长上下文 |
支持 |
受显存限制 |
3.4 选择决策树
是否需要数据不出域?
├── 是 → 本地部署
│ └── 硬件预算?
│ ├── <¥5,000 → Ollama + Qwen2.5:7B / Llama3.1:8B
│ ├── ¥5,000-20,000 → RTX 4090 + Qwen2.5:14B
│ ├── ¥20,000-80,000 → A100 40GB + Qwen2.5:72B
│ └── >¥100,000 → 多卡A100 + DeepSeek-V3
│
└── 否 → 使用在线API
└── 预算?
├── 极紧 → DeepSeek-V3 / Gemini Flash
├── 一般 → Kimi / Qwen-Plus
├── 充足 → GPT-4o / Claude 3.5
└── 无限 → GPT-4o / Claude 3 Opus + 本地备份
四、OpenClaw 接入配置
4.1 完整配置示例
# ~/.openclaw/config.yaml
models:
# ========== 在线模型 ==========
# Moonshot Kimi (推荐中文、代码)
kimi:
provider: kimi-coding
model: k2p5
api_key: ${KIMI_API_KEY}
base_url: https://api.moonshot.cn/v1
priority: 1
# OpenAI GPT-4o (推荐多模态、工具调用)
gpt-4o:
provider: openai
model: gpt-4o
api_key: ${OPENAI_API_KEY}
base_url: https://api.openai.com/v1
priority: 2
# Anthropic Claude (推荐代码、分析)
claude:
provider: anthropic
model: claude-3-5-sonnet-20241022
api_key: ${ANTHROPIC_API_KEY}
base_url: https://api.anthropic.com/v1
priority: 3
# DeepSeek (推荐性价比)
deepseek:
provider: openai-compatible
model: deepseek-chat
api_key: ${DEEPSEEK_API_KEY}
base_url: https://api.deepseek.com/v1
priority: 4
# Google Gemini (推荐长文本)
gemini:
provider: google
model: gemini-2.0-flash
api_key: ${GOOGLE_API_KEY}
base_url: https://generativelanguage.googleapis.com/v1beta
priority: 5
# ========== 本地模型 ==========
# Ollama本地模型
local-qwen:
provider: ollama
model: qwen2.5:14b
base_url: http://localhost:11434
priority: 10
local-llama:
provider: ollama
model: llama3.1:8b
base_url: http://localhost:11434
priority: 11
# vLLM本地服务
vllm-qwen:
provider: openai-compatible
model: Qwen/Qwen2.5-14B-Instruct
base_url: http://localhost:8000/v1
priority: 12
# 默认模型
default_model: kimi
# 路由策略
routing:
# 根据任务类型选择模型
task_routing:
code: kimi # 代码任务用Kimi
long_context: gemini # 长文本用Gemini
analysis: claude # 分析任务用Claude
default: kimi # 默认用Kimi
# 故障转移
fallback:
- kimi
- deepseek
- local-qwen
4.2 环境变量配置
# 添加到 ~/.bashrc 或 ~/.zshrc
# Moonshot Kimi
export KIMI_API_KEY="sk-xxxxxxxxxx"
# OpenAI
export OPENAI_API_KEY="sk-xxxxxxxxxx"
# Anthropic
export ANTHROPIC_API_KEY="sk-ant-xxxxxxxxxx"
# DeepSeek
export DEEPSEEK_API_KEY="sk-xxxxxxxxxx"
# Google
export GOOGLE_API_KEY="xxxxxxxxxx"
# 阿里云
export DASHSCOPE_API_KEY="sk-xxxxxxxxxx"
4.3 快速切换模型
# 命令行切换
openclaw config set default_model gpt-4o
openclaw config set default_model local-qwen
# 会话中临时切换
/model kimi
/model local-qwen
五、选型建议
5.1 按场景推荐
场景1: 个人开发者/小团队
推荐: kimi-coding/k2p5 + qwen2.5:14b (本地)
- 在线:Kimi处理复杂任务
- 本地:Qwen14B处理日常任务,保护隐私
- 成本:¥0-500/月
场景2: 中文内容创作团队
推荐: kimi-chat + qwen2.5:72b (本地)
- 在线:Kimi长文档分析
- 本地:Qwen72B批量生成
- 成本:¥500-2000/月 + 硬件投入
场景3: 代码生成工具
推荐: claude-3-5-sonnet + deepseek-coder:33b (本地)
- 在线:Claude处理复杂重构
- 本地:DeepSeek Coder日常补全
- 成本:$100-300/月 + 硬件投入
场景4: 企业私有部署
推荐: qwen2.5:72b / deepseek-v3 (本地)
- 完全数据不出域
- 高并发vLLM部署
- 成本:硬件投入¥20万-100万,后期¥1000/月电费
场景5: 多模态应用
推荐: gpt-4o / gemini-2.0-pro
- 图像理解 + 生成
- 视频分析
- 成本:$200-1000/月
5.2 混合架构建议
┌─────────────────────────────────────────────────────────┐
│ 混合架构最佳实践 │
├─────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ ┌──────────────┐ │
│ │ 在线API │ │ 本地模型 │ │
│ │ (Kimi/GPT) │ │ (Qwen/LLaMA)│ │
│ │ │ │ │ │
│ │ • 复杂任务 │ │ • 日常对话 │ │
│ │ • 长文档 │ │ • 隐私敏感 │ │
│ │ • 备份故障 │ │ • 高频调用 │ │
│ └──────┬───────┘ └──────┬───────┘ │
│ │ │ │
│ └─────────┬─────────┘ │
│ │ │
│ ┌─────────▼─────────┐ │
│ │ OpenClaw路由 │ │
│ │ • 智能任务分发 │ │
│ │ • 故障自动转移 │ │
│ │ • 成本控制 │ │
│ └───────────────────┘ │
│ │
└─────────────────────────────────────────────────────────┘
5.3 成本控制策略
- 缓存命中: 启用OpenClaw的prompt缓存,降低50%成本
- 模型分级: 简单任务用轻量模型,复杂任务用大模型
- 本地优先: 高频任务本地处理,低频任务用API
- 批量处理: 聚合请求,减少API调用次数
附录
A. 模型性能基准
|
模型 |
MMLU |
HumanEval |
C-Eval |
长文本 |
|
GPT-4o |
88.7% |
90.2% |
- |
128K |
|
Claude 3.5 Sonnet |
88.9% |
92.0% |
- |
200K |
|
Kimi K2.5 |
87.2% |
89.1% |
88.5% |
256K |
|
DeepSeek-V3 |
87.1% |
92.2% |
86.5% |
64K |
|
Qwen2.5-72B |
86.1% |
86.2% |
89.2% |
128K |
|
Llama 3.1 70B |
86.0% |
80.5% |
67.5% |
128K |
B. 相关链接
- OpenClaw文档: https://docs.openclaw.ai
- Ollama模型库: https://ollama.com/library
- HuggingFace: https://huggingface.co/models
- vLLM文档: https://docs.vllm.ai
文档结束
更多推荐




所有评论(0)