【LLM】Openclaw测试评估PinchBench

评估 LLM 作为 OpenClaw 编码代理的基准测试，目标是通过在不同模型上运行统一的真实任务，从成功率、速度、成本三个维度量化模型表现，帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在：https://github.com/pinchbench/leaderboard，基准测试运行器、任务定义及评分逻辑地址在：h

山顶夕景

982人浏览 · 2026-03-08 22:53:23

山顶夕景 · 2026-03-08 22:53:23 发布

note

评估 LLM 作为 OpenClaw 编码代理的基准测试，目标是通过在不同模型上运行统一的真实任务，从成功率、速度、成本三个维度量化模型表现，帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在：https://github.com/pinchbench/leaderboard，基准测试运行器、任务定义及评分逻辑地址在：https://github.com/pinchbench/skill，基于 Cloudflare Workers 的后端 API，为排行榜提供数据支持的地址在https://github.com/pinchbench/api。
核心还是要看评测的方式，尤其是评测的 23 个任务，就是用的skill.md：https://github.com/pinchbench/skill/tree/main/tasks

一、Openclaw测试评估PinchBench

【Openclaw测试评估精准进展】PinchBench，https://pinchbench.com，评估 LLM 作为 OpenClaw 编码代理的基准测试，目标是通过在不同模型上运行统一的真实任务，从成功率、速度、成本三个维度量化模型表现，帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在：https://github.com/pinchbench/leaderboard，基准测试运行器、任务定义及评分逻辑地址在：https://github.com/pinchbench/skill，基于 Cloudflare Workers 的后端 API，为排行榜提供数据支持的地址在https://github.com/pinchbench/api。

结果显示 Gemini 3 Flash 处理 OpenClaw 任务成功率以 95.1% 领先，minimax-m2.1、kimi-k2.5 则分别以 93.6%、93.4% 分列 2、3 位。Claude Sonnet 4.5 则为 92.7%，GPT-4o 为 85.2%。

在这里插入图片描述

看核心几个点：
1）评测任务：所有测试任务以带 YAML 前置内容的 markdown 文件存储在 pinchbench/skill 仓库，单任务包含提示词、预期行为、评分标准、自动化检查脚本、LLM 评审规则五大核心要素；目前共涵盖 23 类分属不同评分类型的真实任务，覆盖简单指令响应、代码编写、内容创作、数据处理、多步工作流执行等场景，如日历文件生成、股票价格调研、PDF 总结、API 工作流搭建等；

2）评分机制任务评分分为三种类型，兼顾客观验证与主观质量评估：自动化评分：通过 Python 函数校验工作区文件、执行记录等客观指标，如文件是否存在、内容是否符合指定格式；LLM 评审：由 Claude Opus 依据详细规则，对内容质量、完整性、适配性等主观维度打分；混合评分：结合自动化客观检查与 LLM 主观评审，适用于复杂多维度任务。

3）详细任务：

Sanity Check (✅, Automated): 验证智能体能处理简单指令并做出问候响应。
Calendar Event Creation (📅, Automated): 解析自然语言请求，生成含正确日期、时间、参会人、描述的有效 ICS 日历文件。
Stock Price Research (📈, Automated): 通过网络工具查询最新股价，生成含股票代码、价格、日期、市场背景的格式化报告。
Blog Post Writing (✍️, LLM Judge): 围绕指定主题撰写约 500 字结构化博客，需符合 markdown 格式、论点清晰且附带案例。
Weather Script Creation (🌤️, Automated): 编写 Python 脚本，实现从 API 获取天气数据、解析响应并包含异常处理逻辑。
Document Summarization (📄, LLM Judge): 阅读指定文档，撰写 3 段简洁摘要，提炼核心主题与关键信息。
Tech Conference Research (🎤, LLM Judge): 调研并整理 5 个真实科技会议，包含准确名称、日期、地点及官网链接。
Professional Email Drafting (✉️, LLM Judge): 撰写礼貌专业的拒会邮件，维护合作关系并提供替代方案。
Memory Retrieval from Context (🧠, Automated): 从项目笔记文件中提取日期、团队成员、技术栈等特定信息，准确回答相关问题。
File Structure Creation (📁, Automated): 创建标准项目目录结构，包含源文件、README、.gitignore 并填写正确内容。
Multi-step API Workflow (🔄, Hybrid): 读取配置文件、提取 API 设置，编写 Python 脚本调用接口并记录操作流程。
Install ClawdHub Skill (🔌, Automated): 从 OpenClaw 技能库安装指定技能并验证其可用性。
Search and Install Skill (🔍, Automated): 在技能库中搜索天气相关技能并安装适配的版本。
AI Image Generation (🎨, Hybrid): 通过 AI 图像生成工具根据描述生成图片并保存至文件。
Humanize AI-Generated Blog (🤖, LLM Judge): 借助人性化技能，将机械的 AI 生成博客转化为自然的人类风格文本。
Daily Research Summary (📊, LLM Judge): 整合多份研究文档，撰写逻辑连贯的每日摘要并提炼核心发现。
Email Inbox Triage (📬, Hybrid): 分析多封邮件，按紧急程度排序并生成结构化的邮件分拣报告。
Email Search and Summarization (🔎, Hybrid): 检索邮件归档找到相关信息，并对结果进行总结。
Competitive Market Research (🏢, Hybrid): 调研企业 APM 领域竞争格局，识别头部玩家及核心差异化优势。
CSV and Excel Summarization (📑, Hybrid): 分析 CSV 和 Excel 文件，提取数据洞察并生成数据摘要。
ELI5 PDF Summarization (👶, LLM Judge): 阅读技术类 PDF，用简单语言和类比方式完成 “五岁小孩都能懂” 的摘要。
OpenClaw Report Comprehension (📖, Automated): 从研究报告 PDF 中提取特定信息，准确回答针对性问题。
Second Brain Knowledge Persistence (💾, Hybrid): 将信息存储至记忆模块，并在多轮会话中准确召回。