OpenClaw 大语言模型接入指南

本文对比分析了在线与本地大语言模型的选型方案。在线模型方面，详细介绍了Moonshot Kimi、OpenAI GPT-4o、Anthropic Claude等主流商业API的特点、价格和适用场景；本地模型部分则涵盖了Llama3、Qwen2.5、DeepSeek等开源方案的部署要求和性能表现。通过成本、性能、隐私等维度的对比，提供了混合架构建议：复杂任务使用在线API，日常处理采用本地模型。文档

Wireless_Link

2350人浏览 · 2026-03-18 14:47:18

Wireless_Link · 2026-03-18 14:47:18 发布

一、在线模型 (Cloud APIs)

1.1 主流商业模型概览

供应商	模型	擅长领域	上下文长度	中文支持	OpenClaw支持
Moonshot	kimi-coding/k2p5	代码生成、长文本	256K	⭐⭐⭐⭐⭐	✅ 原生支持
Moonshot	kimi-chat	通用对话、长文本	200K	⭐⭐⭐⭐⭐	✅ 原生支持
OpenAI	GPT-4o	通用、多模态	128K	⭐⭐⭐⭐	✅ API兼容
OpenAI	GPT-4o-mini	轻量级通用	128K	⭐⭐⭐⭐	✅ API兼容
OpenAI	o1/o3	推理、数学	200K	⭐⭐⭐⭐	✅ API兼容
Anthropic	Claude 3.5 Sonnet	代码、分析	200K	⭐⭐⭐⭐	✅ API兼容
Anthropic	Claude 3 Opus	复杂任务	200K	⭐⭐⭐⭐	✅ API兼容
Google	Gemini 2.0 Pro	多模态、长文本	1M	⭐⭐⭐⭐	✅ API兼容
Google	Gemini 2.0 Flash	快速响应	1M	⭐⭐⭐⭐	✅ API兼容
DeepSeek	DeepSeek-V3	代码、推理	64K	⭐⭐⭐⭐⭐	✅ API兼容
DeepSeek	DeepSeek-R1	推理专项	64K	⭐⭐⭐⭐⭐	✅ API兼容
Alibaba	Qwen2.5-Max	通用、代码	128K	⭐⭐⭐⭐⭐	✅ API兼容
Alibaba	Qwen2.5-Coder	代码专项	128K	⭐⭐⭐⭐⭐	✅ API兼容
01.AI	Yi-Lightning	通用对话	128K	⭐⭐⭐⭐⭐	✅ API兼容
Zhipu	GLM-4	通用、Agent	128K	⭐⭐⭐⭐⭐	✅ API兼容

1.2 详细模型分析

1.2.1 Moonshot (Kimi)

模型系列:

kimi-coding/k2p5 - 编程专用模型
kimi-chat - 通用对话模型

核心优势:

✅ 超长上下文: 支持200K-256K tokens，适合长文档分析
✅ 中文优化: 国内团队，中文理解和生成能力顶尖
✅ 代码能力: Kimi Coding在代码生成和调试上表现优异
✅ 文件处理: 支持直接上传PDF、Word、代码文件分析

适用场景:

长文档分析、论文阅读
代码生成、代码审查
中文内容创作
知识库问答

收费参考 (2026.03):

模型	Input	Output	备注
kimi-coding/k2p5	¥0.012/1K tokens	¥0.048/1K tokens	缓存命中50%折扣
kimi-chat	¥0.012/1K tokens	¥0.048/1K tokens	-

OpenClaw配置:

models:
  kimi-coding:
    provider: kimi-coding
    model: k2p5
    api_key: ${KIMI_API_KEY}
    base_url: https://api.moonshot.cn/v1

1.2.2 OpenAI

模型系列:

gpt-4o - 旗舰多模态模型
gpt-4o-mini - 轻量高速版
o1 / o3 - 推理专用模型（思维链）

核心优势:

✅ 多模态: 支持文本、图像、音频输入
✅ 工具调用: Function Calling能力顶尖
✅ 生态系统: 最完善的API生态和文档
✅ o系列推理: 在数学、逻辑推理上表现突出

适用场景:

多模态应用（图像理解+生成）
复杂工具调用和Agent系统
需要最强推理能力的任务
国际化产品

收费参考:

模型	Input	Output	备注
GPT-4o	$2.50/1M tokens	$10/1M tokens	-
GPT-4o-mini	$0.15/1M tokens	$0.60/1M tokens	高性价比
o1	$15/1M tokens	$60/1M tokens	推理成本高
o3-mini	$1.10/1M tokens	$4.40/1M tokens	轻量推理

OpenClaw配置:

models:
  gpt-4o:
    provider: openai
    model: gpt-4o
    api_key: ${OPENAI_API_KEY}
    base_url: https://api.openai.com/v1

1.2.3 Anthropic (Claude)

模型系列:

claude-3-5-sonnet-20241022 - 平衡型
claude-3-opus-20240229 - 最强能力
claude-3-haiku - 轻量快速

核心优势:

✅ 代码能力: 在代码理解和生成上业界顶尖
✅ 长上下文: 200K上下文，适合复杂分析
✅ 安全性: 对有害请求拒绝率较高
✅ Artifacts: 支持生成复杂文档和代码预览

适用场景:

复杂代码生成和重构
长文档深度分析
需要高安全性的应用
技术写作

收费参考:

模型	Input	Output	备注
Claude 3.5 Sonnet	$3/1M tokens	$15/1M tokens	-
Claude 3 Opus	$15/1M tokens	$75/1M tokens	最贵但最强
Claude 3 Haiku	$0.25/1M tokens	$1.25/1M tokens	轻量

OpenClaw配置:

models:
  claude-sonnet:
    provider: anthropic
    model: claude-3-5-sonnet-20241022
    api_key: ${ANTHROPIC_API_KEY}
    base_url: https://api.anthropic.com/v1

1.2.4 Google (Gemini)

模型系列:

gemini-2.0-pro-exp-02-05 - 专业版
gemini-2.0-flash - 快速版
gemini-2.0-flash-lite - 轻量版

核心优势:

✅ 超长上下文: 1M tokens（业界最长）
✅ 多模态原生: 从底层设计支持图文音视频
✅ 免费额度: generous免费 tier
✅ Google生态: 与Google服务深度整合

适用场景:

超长文档分析（整本书、代码库）
视频内容理解
与Google服务结合的应用
成本敏感的长文本任务

收费参考:

模型	Input	Output	备注
Gemini 2.0 Pro	$1.25/1M tokens	$5/1M tokens	视频额外计费
Gemini 2.0 Flash	$0.075/1M tokens	$0.30/1M tokens	性价比极高
Gemini 2.0 Flash-Lite	$0.0375/1M tokens	$0.15/1M tokens	最低成本

OpenClaw配置:

models:
  gemini-pro:
    provider: google
    model: gemini-2.0-pro-exp-02-05
    api_key: ${GOOGLE_API_KEY}
    base_url: https://generativelanguage.googleapis.com/v1beta

1.2.5 DeepSeek

模型系列:

deepseek-chat (V3) - 通用对话
deepseek-reasoner (R1) - 推理专用

核心优势:

✅ 性价比极高: 价格远低于GPT-4，性能接近
✅ 中文优化: 国内团队，中文理解优秀
✅ 开源生态: 部分模型开源，可本地部署
✅ R1推理: 媲美o1的推理能力，价格1/20

适用场景:

成本敏感的通用任务
需要推理能力的数学/逻辑任务
中文场景优先的应用
预算有限的初创项目

收费参考:

模型	Input	Output	备注
DeepSeek-V3	¥0.002/1K tokens	¥0.008/1K tokens	缓存命中¥0.001
DeepSeek-R1	¥0.004/1K tokens	¥0.016/1K tokens	推理模型

OpenClaw配置:

models:
  deepseek-v3:
    provider: openai-compatible
    model: deepseek-chat
    api_key: ${DEEPSEEK_API_KEY}
    base_url: https://api.deepseek.com/v1

1.2.6 阿里巴巴 (Qwen)

模型系列:

qwen-max / qwen-plus / qwen-turbo - 通用系列
qwen-coder-plus - 代码专用
qwen-vl-max - 多模态视觉

核心优势:

✅ 中文顶尖: 中文理解和生成能力国内最强
✅ 开源生态: Qwen2.5系列全面开源
✅ 多模态: VL系列视觉理解能力强
✅ 阿里云: 国内访问稳定

适用场景:

中文NLP任务
阿里云生态应用
需要开源模型微调的场景
企业级中文应用

收费参考:

模型	Input	Output	备注
Qwen-Max	¥0.02/1K tokens	¥0.06/1K tokens	最强
Qwen-Plus	¥0.0008/1K tokens	¥0.002/1K tokens	性价比
Qwen-Coder	¥0.002/1K tokens	¥0.006/1K tokens	代码

OpenClaw配置:

models:
  qwen-max:
    provider: openai-compatible
    model: qwen-max
    api_key: ${DASHSCOPE_API_KEY}
    base_url: https://dashscope.aliyuncs.com/compatible-mode/v1

1.3 在线模型收费对比总表

供应商	模型	输入价格	输出价格	性价比评分
Moonshot	Kimi K2.5	¥12/1M	¥48/1M	⭐⭐⭐⭐
OpenAI	GPT-4o	$2.5/1M	$10/1M	⭐⭐⭐
OpenAI	GPT-4o-mini	$0.15/1M	$0.6/1M	⭐⭐⭐⭐⭐
Anthropic	Claude 3.5 Sonnet	$3/1M	$15/1M	⭐⭐⭐
Google	Gemini 2.0 Flash	$0.075/1M	$0.3/1M	⭐⭐⭐⭐⭐
DeepSeek	V3	¥2/1M	¥8/1M	⭐⭐⭐⭐⭐
DeepSeek	R1	¥4/1M	¥16/1M	⭐⭐⭐⭐⭐
Alibaba	Qwen-Plus	¥0.8/1M	¥2/1M	⭐⭐⭐⭐
01.AI	Yi-Lightning	¥0.99/1M	¥0.99/1M	⭐⭐⭐⭐

💡 价格提示: 1M tokens ≈ 750,000个英文单词 ≈ 500,000个中文字符

二、本地模型 (Local/On-Premise)

2.1 主流本地模型概览

模型	参数规模	硬件要求	擅长领域	许可证	OpenClaw支持
Llama 3	8B/70B	16GB/80GB+ VRAM	通用对话	Llama 3.1	✅ Ollama/vLLM
Qwen2.5	7B/14B/32B/72B	16GB-160GB VRAM	中文、代码	Apache 2.0	✅ Ollama/vLLM
DeepSeek-V3	671B (MoE)	多卡A100	代码、推理	DeepSeek	✅ vLLM/ollama
Mistral	7B/8x7B/8x22B	16GB-160GB VRAM	通用、推理	Apache 2.0	✅ Ollama/vLLM
Gemma	2B/4B/9B/27B	8GB-48GB VRAM	轻量通用	Gemma	✅ Ollama
CodeLlama	7B/13B/34B	16GB-80GB VRAM	代码生成	Llama 2	✅ Ollama
Phi-4	14B	32GB VRAM	推理、数学	MIT	✅ Ollama
Yi-1.5	6B/9B/34B	16GB-80GB VRAM	中文、双语	Apache 2.0	✅ Ollama
GLM-4	9B	24GB VRAM	中文Agent	Model License	✅ vLLM

2.2 详细本地模型分析

2.2.1 Meta Llama 3/3.1

模型规格:

llama3.1:8b - 80亿参数，消费级GPU可跑
llama3.1:70b - 700亿参数，需要大显存
llama3.1:405b - 4050亿参数，企业级集群

核心优势:

✅ 英语能力顶尖: 英语理解和生成能力开源最强
✅ 工具调用: 原生支持Function Calling
✅ 生态完善: HuggingFace生态支持最好
✅ 许可证友好: 允许商用（需遵守Llama 3.1许可）

硬件需求:

模型	显存需求	推荐GPU	量化
8B	16GB	RTX 4090 / A4000	Q4/Q8
70B	80GB	A100 80GB / 2xA40	Q4
405B	500GB+	8xA100集群	Q4

适用场景:

英语为主的私有部署
需要工具调用的Agent系统
数据隐私要求高的场景
长期运行的服务

OpenClaw配置 (Ollama):

models:
  llama3.1-local:
    provider: ollama
    model: llama3.1:8b
    base_url: http://localhost:11434

2.2.2 Alibaba Qwen2.5

模型规格:

qwen2.5:7b - 轻量中文模型
qwen2.5:14b - 平衡型
qwen2.5:32b - 高性能
qwen2.5:72b - 中文最强开源
qwen2.5-coder:14b - 代码专用

核心优势:

✅ 中文最强开源: 中文理解和生成能力开源模型顶尖
✅ 长上下文: 支持128K上下文
✅ 代码能力: Coder版本代码能力接近GPT-4
✅ 工具调用: 支持Function Calling
✅ 完全开源: Apache 2.0许可证，可商用

硬件需求:

模型	显存需求	推荐GPU
7B	16GB	RTX 4090
14B	32GB	A6000 / A100 40GB
32B	64GB	A100 80GB
72B	160GB	2xA100 80GB

适用场景:

中文为主的私有部署
需要长上下文的中文应用
代码生成和审查
企业级中文Agent

OpenClaw配置:

models:
  qwen2.5-local:
    provider: ollama
    model: qwen2.5:14b
    base_url: http://localhost:11434

2.2.3 DeepSeek (本地部署)

模型规格:

deepseek-v3 (671B MoE) - 专家混合模型
deepseek-r1 - 推理专用

核心优势:

✅ 性能顶尖: 媲美GPT-4的开源模型
✅ 推理能力: R1版本推理能力接近o1
✅ 成本优势: 本地部署长期使用成本低
✅ 开源可商用: 允许商用部署

硬件需求 (DeepSeek-V3):

配置	显存需求	说明
FP8完整版	800GB+	需16xA100/H100
INT8量化	400GB+	需8xA100 80GB
INT4量化	200GB+	需4xA100 80GB

⚠️ 注意: DeepSeek-V3需要专业级GPU集群，个人用户建议使用API

适用场景:

大型企业的私有化部署
需要GPT-4级别能力但数据不出域
高并发的生产环境
长期使用成本优化

OpenClaw配置 (vLLM):

models:
  deepseek-local:
    provider: openai-compatible
    model: deepseek-ai/DeepSeek-V3
    base_url: http://localhost:8000/v1

2.2.4 Mistral AI

模型规格:

mistral:7b - 轻量高效
mixtral:8x7b - MoE专家混合
mixtral:8x22b - 大MoE模型

核心优势:

✅ 高效推理: 7B参数达到13B性能
✅ MoE架构: 稀疏专家混合，推理成本低
✅ 欧洲团队: GDPR合规性好
✅ Apache 2.0: 完全开源可商用

硬件需求:

模型	显存需求	推荐GPU
Mistral 7B	16GB	RTX 4090
Mixtral 8x7B	48GB	A6000 / A100 40GB
Mixtral 8x22B	140GB	2xA100 80GB

适用场景:

高效推理需求的场景
欧洲合规要求
需要MoE架构的应用

OpenClaw配置:

models:
  mixtral-local:
    provider: ollama
    model: mixtral:8x7b
    base_url: http://localhost:11434

2.2.5 微软 Phi-4

模型规格:

phi4:14b - 140亿参数

核心优势:

✅ 小模型大能力: 14B参数达到70B性能
✅ 推理能力: 数学和逻辑推理出色
✅ MIT许可证: 最宽松的开源许可
✅ 微软生态: 与Azure/Microsoft工具集成

硬件需求:

模型	显存需求	推荐GPU
Phi-4 14B	32GB	A100 40GB / A6000

适用场景:

推理密集型任务
数学计算和代码生成
需要小体积高性能的场景

OpenClaw配置:

models:
  phi4-local:
    provider: ollama
    model: phi4:14b
    base_url: http://localhost:11434

2.3 本地模型部署工具

工具	特点	OpenClaw支持	适用场景
Ollama	最简单，一键运行	✅ 原生支持	个人/小团队
vLLM	高吞吐，生产级	✅ API兼容	企业/高并发
llama.cpp	纯CPU运行，无GPU	✅ API兼容	无显卡环境
TensorRT-LLM	NVIDIA优化，最快	✅ API兼容	NVIDIA GPU
Text Generation Inference	HuggingFace官方	✅ API兼容	HF生态

Ollama 配置示例

# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型
ollama pull qwen2.5:14b
ollama pull llama3.1:8b

# 运行服务
ollama serve

# OpenClaw配置
models:
  ollama-qwen:
    provider: ollama
    model: qwen2.5:14b
    base_url: http://localhost:11434
    
  ollama-llama:
    provider: ollama
    model: llama3.1:8b
    base_url: http://localhost:11434

vLLM 配置示例

# 安装vLLM
pip install vllm

# 启动服务
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct \
  --tensor-parallel-size 1 \
  --max-model-len 32768

# OpenClaw配置
models:
  vllm-qwen:
    provider: openai-compatible
    model: Qwen/Qwen2.5-14B-Instruct
    base_url: http://localhost:8000/v1

三、在线 vs 本地对比

3.1 综合对比表

维度	在线模型	本地模型
成本模式	按量付费，无固定成本	前期硬件投入，后期低成本
响应延迟	网络依赖，50-500ms	本地计算，10-100ms
数据隐私	数据上传云端	数据完全不出域
可用性	依赖供应商服务	完全自主可控
模型选择	供应商限定	任意开源模型
定制能力	有限（Prompt工程）	可微调、可量化
扩展性	弹性扩缩容	受硬件限制
维护成本	低	高（需运维）
离线使用	❌ 不可	✅ 可

3.2 成本对比分析

场景：月消耗100M tokens（约7500万字）

方案	月成本	说明
GPT-4o API	$350 (约¥2,500)	按量付费
DeepSeek-V3 API	¥200	最便宜的API方案
本地 4090	¥0 (电费~¥100)	硬件成本¥15,000(一次性)
本地 A100	¥0 (电费~¥500)	硬件成本¥80,000(一次性)

成本平衡点:

月消耗 > 50M tokens：本地部署开始划算
月消耗 > 200M tokens：本地部署显著节省

3.3 性能对比

指标	在线模型	本地模型 (量化)
推理速度	快 (专业优化)	中等 (依赖硬件)
输出质量	最优	接近 (Q4量化损失<5%)
并发能力	高	受显存限制
长上下文	支持	受显存限制

3.4 选择决策树

是否需要数据不出域？
├── 是 → 本地部署
│       └── 硬件预算？
│           ├── <¥5,000 → Ollama + Qwen2.5:7B / Llama3.1:8B
│           ├── ¥5,000-20,000 → RTX 4090 + Qwen2.5:14B
│           ├── ¥20,000-80,000 → A100 40GB + Qwen2.5:72B
│           └── >¥100,000 → 多卡A100 + DeepSeek-V3
│
└── 否 → 使用在线API
        └── 预算？
            ├── 极紧 → DeepSeek-V3 / Gemini Flash
            ├── 一般 → Kimi / Qwen-Plus
            ├── 充足 → GPT-4o / Claude 3.5
            └── 无限 → GPT-4o / Claude 3 Opus + 本地备份

四、OpenClaw 接入配置

4.1 完整配置示例

# ~/.openclaw/config.yaml

models:
  # ========== 在线模型 ==========
  
  # Moonshot Kimi (推荐中文、代码)
  kimi:
    provider: kimi-coding
    model: k2p5
    api_key: ${KIMI_API_KEY}
    base_url: https://api.moonshot.cn/v1
    priority: 1
  
  # OpenAI GPT-4o (推荐多模态、工具调用)
  gpt-4o:
    provider: openai
    model: gpt-4o
    api_key: ${OPENAI_API_KEY}
    base_url: https://api.openai.com/v1
    priority: 2
  
  # Anthropic Claude (推荐代码、分析)
  claude:
    provider: anthropic
    model: claude-3-5-sonnet-20241022
    api_key: ${ANTHROPIC_API_KEY}
    base_url: https://api.anthropic.com/v1
    priority: 3
  
  # DeepSeek (推荐性价比)
  deepseek:
    provider: openai-compatible
    model: deepseek-chat
    api_key: ${DEEPSEEK_API_KEY}
    base_url: https://api.deepseek.com/v1
    priority: 4
  
  # Google Gemini (推荐长文本)
  gemini:
    provider: google
    model: gemini-2.0-flash
    api_key: ${GOOGLE_API_KEY}
    base_url: https://generativelanguage.googleapis.com/v1beta
    priority: 5
  
  # ========== 本地模型 ==========
  
  # Ollama本地模型
  local-qwen:
    provider: ollama
    model: qwen2.5:14b
    base_url: http://localhost:11434
    priority: 10
  
  local-llama:
    provider: ollama
    model: llama3.1:8b
    base_url: http://localhost:11434
    priority: 11
  
  # vLLM本地服务
  vllm-qwen:
    provider: openai-compatible
    model: Qwen/Qwen2.5-14B-Instruct
    base_url: http://localhost:8000/v1
    priority: 12

# 默认模型
default_model: kimi

# 路由策略
routing:
  # 根据任务类型选择模型
  task_routing:
    code: kimi          # 代码任务用Kimi
    long_context: gemini # 长文本用Gemini
    analysis: claude    # 分析任务用Claude
    default: kimi       # 默认用Kimi
  
  # 故障转移
  fallback:
    - kimi
    - deepseek
    - local-qwen

4.2 环境变量配置

# 添加到 ~/.bashrc 或 ~/.zshrc

# Moonshot Kimi
export KIMI_API_KEY="sk-xxxxxxxxxx"

# OpenAI
export OPENAI_API_KEY="sk-xxxxxxxxxx"

# Anthropic
export ANTHROPIC_API_KEY="sk-ant-xxxxxxxxxx"

# DeepSeek
export DEEPSEEK_API_KEY="sk-xxxxxxxxxx"

# Google
export GOOGLE_API_KEY="xxxxxxxxxx"

# 阿里云
export DASHSCOPE_API_KEY="sk-xxxxxxxxxx"

4.3 快速切换模型

# 命令行切换
openclaw config set default_model gpt-4o
openclaw config set default_model local-qwen

# 会话中临时切换
/model kimi
/model local-qwen

五、选型建议

5.1 按场景推荐

场景1: 个人开发者/小团队

推荐: kimi-coding/k2p5 + qwen2.5:14b (本地)

在线：Kimi处理复杂任务
本地：Qwen14B处理日常任务，保护隐私
成本：¥0-500/月

场景2: 中文内容创作团队

推荐: kimi-chat + qwen2.5:72b (本地)

在线：Kimi长文档分析
本地：Qwen72B批量生成
成本：¥500-2000/月 + 硬件投入

场景3: 代码生成工具

推荐: claude-3-5-sonnet + deepseek-coder:33b (本地)

在线：Claude处理复杂重构
本地：DeepSeek Coder日常补全
成本：$100-300/月 + 硬件投入

场景4: 企业私有部署

推荐: qwen2.5:72b / deepseek-v3 (本地)

完全数据不出域
高并发vLLM部署
成本：硬件投入¥20万-100万，后期¥1000/月电费

场景5: 多模态应用

5.2 混合架构建议

┌─────────────────────────────────────────────────────────┐
│                    混合架构最佳实践                        │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  ┌──────────────┐    ┌──────────────┐                  │
│  │   在线API    │    │   本地模型    │                  │
│  │  (Kimi/GPT)  │    │  (Qwen/LLaMA)│                  │
│  │              │    │              │                  │
│  │ • 复杂任务   │    │ • 日常对话   │                  │
│  │ • 长文档     │    │ • 隐私敏感   │                  │
│  │ • 备份故障   │    │ • 高频调用   │                  │
│  └──────┬───────┘    └──────┬───────┘                  │
│         │                   │                          │
│         └─────────┬─────────┘                          │
│                   │                                    │
│         ┌─────────▼─────────┐                         │
│         │   OpenClaw路由    │                         │
│         │  • 智能任务分发   │                         │
│         │  • 故障自动转移   │                         │
│         │  • 成本控制      │                         │
│         └───────────────────┘                         │
│                                                         │
└─────────────────────────────────────────────────────────┘

5.3 成本控制策略

缓存命中: 启用OpenClaw的prompt缓存，降低50%成本
模型分级: 简单任务用轻量模型，复杂任务用大模型
本地优先: 高频任务本地处理，低频任务用API
批量处理: 聚合请求，减少API调用次数

附录

A. 模型性能基准

模型	MMLU	HumanEval	C-Eval	长文本
GPT-4o	88.7%	90.2%	-	128K
Claude 3.5 Sonnet	88.9%	92.0%	-	200K
Kimi K2.5	87.2%	89.1%	88.5%	256K
DeepSeek-V3	87.1%	92.2%	86.5%	64K
Qwen2.5-72B	86.1%	86.2%	89.2%	128K
Llama 3.1 70B	86.0%	80.5%	67.5%	128K