【LLM】Openclaw测试评估PinchBench
评估 LLM 作为 OpenClaw 编码代理的基准测试,目标是通过在不同模型上运行统一的真实任务,从成功率、速度、成本三个维度量化模型表现,帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在:https://github.com/pinchbench/leaderboard,基准测试运行器、任务定义及评分逻辑地址在:h
note
- 评估 LLM 作为 OpenClaw 编码代理的基准测试,目标是通过在不同模型上运行统一的真实任务,从成功率、速度、成本三个维度量化模型表现,帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在:https://github.com/pinchbench/leaderboard,基准测试运行器、任务定义及评分逻辑地址在:https://github.com/pinchbench/skill,基于 Cloudflare Workers 的后端 API,为排行榜提供数据支持的地址在https://github.com/pinchbench/api。
- 核心还是要看评测的方式,尤其是评测的 23 个任务,就是用的skill.md:https://github.com/pinchbench/skill/tree/main/tasks
一、Openclaw测试评估PinchBench
【Openclaw测试评估精准进展】PinchBench,https://pinchbench.com,评估 LLM 作为 OpenClaw 编码代理的基准测试,目标是通过在不同模型上运行统一的真实任务,从成功率、速度、成本三个维度量化模型表现,帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在:https://github.com/pinchbench/leaderboard,基准测试运行器、任务定义及评分逻辑地址在:https://github.com/pinchbench/skill,基于 Cloudflare Workers 的后端 API,为排行榜提供数据支持的地址在https://github.com/pinchbench/api。
结果显示 Gemini 3 Flash 处理 OpenClaw 任务成功率以 95.1% 领先,minimax-m2.1、kimi-k2.5 则分别以 93.6%、93.4% 分列 2、3 位。Claude Sonnet 4.5 则为 92.7%,GPT-4o 为 85.2%。

看核心几个点:
1)评测任务:所有测试任务以带 YAML 前置内容的 markdown 文件存储在 pinchbench/skill 仓库,单任务包含提示词、预期行为、评分标准、自动化检查脚本、LLM 评审规则五大核心要素;目前共涵盖 23 类分属不同评分类型的真实任务,覆盖简单指令响应、代码编写、内容创作、数据处理、多步工作流执行等场景,如日历文件生成、股票价格调研、PDF 总结、API 工作流搭建等;
2)评分机制任务评分分为三种类型,兼顾客观验证与主观质量评估:自动化评分:通过 Python 函数校验工作区文件、执行记录等客观指标,如文件是否存在、内容是否符合指定格式;LLM 评审:由 Claude Opus 依据详细规则,对内容质量、完整性、适配性等主观维度打分;混合评分:结合自动化客观检查与 LLM 主观评审,适用于复杂多维度任务。
3)详细任务:
- Sanity Check (✅, Automated): 验证智能体能处理简单指令并做出问候响应。
- Calendar Event Creation (📅, Automated): 解析自然语言请求,生成含正确日期、时间、参会人、描述的有效 ICS 日历文件。
- Stock Price Research (📈, Automated): 通过网络工具查询最新股价,生成含股票代码、价格、日期、市场背景的格式化报告。
- Blog Post Writing (✍️, LLM Judge): 围绕指定主题撰写约 500 字结构化博客,需符合 markdown 格式、论点清晰且附带案例。
- Weather Script Creation (🌤️, Automated): 编写 Python 脚本,实现从 API 获取天气数据、解析响应并包含异常处理逻辑。
- Document Summarization (📄, LLM Judge): 阅读指定文档,撰写 3 段简洁摘要,提炼核心主题与关键信息。
- Tech Conference Research (🎤, LLM Judge): 调研并整理 5 个真实科技会议,包含准确名称、日期、地点及官网链接。
- Professional Email Drafting (✉️, LLM Judge): 撰写礼貌专业的拒会邮件,维护合作关系并提供替代方案。
- Memory Retrieval from Context (🧠, Automated): 从项目笔记文件中提取日期、团队成员、技术栈等特定信息,准确回答相关问题。
- File Structure Creation (📁, Automated): 创建标准项目目录结构,包含源文件、README、.gitignore 并填写正确内容。
- Multi-step API Workflow (🔄, Hybrid): 读取配置文件、提取 API 设置,编写 Python 脚本调用接口并记录操作流程。
- Install ClawdHub Skill (🔌, Automated): 从 OpenClaw 技能库安装指定技能并验证其可用性。
- Search and Install Skill (🔍, Automated): 在技能库中搜索天气相关技能并安装适配的版本。
- AI Image Generation (🎨, Hybrid): 通过 AI 图像生成工具根据描述生成图片并保存至文件。
- Humanize AI-Generated Blog (🤖, LLM Judge): 借助人性化技能,将机械的 AI 生成博客转化为自然的人类风格文本。
- Daily Research Summary (📊, LLM Judge): 整合多份研究文档,撰写逻辑连贯的每日摘要并提炼核心发现。
- Email Inbox Triage (📬, Hybrid): 分析多封邮件,按紧急程度排序并生成结构化的邮件分拣报告。
- Email Search and Summarization (🔎, Hybrid): 检索邮件归档找到相关信息,并对结果进行总结。
- Competitive Market Research (🏢, Hybrid): 调研企业 APM 领域竞争格局,识别头部玩家及核心差异化优势。
- CSV and Excel Summarization (📑, Hybrid): 分析 CSV 和 Excel 文件,提取数据洞察并生成数据摘要。
- ELI5 PDF Summarization (👶, LLM Judge): 阅读技术类 PDF,用简单语言和类比方式完成 “五岁小孩都能懂” 的摘要。
- OpenClaw Report Comprehension (📖, Automated): 从研究报告 PDF 中提取特定信息,准确回答针对性问题。
- Second Brain Knowledge Persistence (💾, Hybrid): 将信息存储至记忆模块,并在多轮会话中准确召回。
Reference
[1] https://pinchbench.com
更多推荐



所有评论(0)