note

  • 评估 LLM 作为 OpenClaw 编码代理的基准测试,目标是通过在不同模型上运行统一的真实任务,从成功率、速度、成本三个维度量化模型表现,帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在:https://github.com/pinchbench/leaderboard,基准测试运行器、任务定义及评分逻辑地址在:https://github.com/pinchbench/skill,基于 Cloudflare Workers 的后端 API,为排行榜提供数据支持的地址在https://github.com/pinchbench/api。
  • 核心还是要看评测的方式,尤其是评测的 23 个任务,就是用的skill.md:https://github.com/pinchbench/skill/tree/main/tasks

一、Openclaw测试评估PinchBench

【Openclaw测试评估精准进展】PinchBench,https://pinchbench.com,评估 LLM 作为 OpenClaw 编码代理的基准测试,目标是通过在不同模型上运行统一的真实任务,从成功率、速度、成本三个维度量化模型表现,帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在:https://github.com/pinchbench/leaderboard,基准测试运行器、任务定义及评分逻辑地址在:https://github.com/pinchbench/skill,基于 Cloudflare Workers 的后端 API,为排行榜提供数据支持的地址在https://github.com/pinchbench/api。

结果显示 Gemini 3 Flash 处理 OpenClaw 任务成功率以 95.1% 领先,minimax-m2.1、kimi-k2.5 则分别以 93.6%、93.4% 分列 2、3 位。Claude Sonnet 4.5 则为 92.7%,GPT-4o 为 85.2%。

在这里插入图片描述

看核心几个点:
1)评测任务:所有测试任务以带 YAML 前置内容的 markdown 文件存储在 pinchbench/skill 仓库,单任务包含提示词、预期行为、评分标准、自动化检查脚本、LLM 评审规则五大核心要素;目前共涵盖 23 类分属不同评分类型的真实任务,覆盖简单指令响应、代码编写、内容创作、数据处理、多步工作流执行等场景,如日历文件生成、股票价格调研、PDF 总结、API 工作流搭建等;

2)评分机制任务评分分为三种类型,兼顾客观验证与主观质量评估:自动化评分:通过 Python 函数校验工作区文件、执行记录等客观指标,如文件是否存在、内容是否符合指定格式;LLM 评审:由 Claude Opus 依据详细规则,对内容质量、完整性、适配性等主观维度打分;混合评分:结合自动化客观检查与 LLM 主观评审,适用于复杂多维度任务。

3)详细任务:

  • Sanity Check (✅, Automated): 验证智能体能处理简单指令并做出问候响应。
  • Calendar Event Creation (📅, Automated): 解析自然语言请求,生成含正确日期、时间、参会人、描述的有效 ICS 日历文件。
  • Stock Price Research (📈, Automated): 通过网络工具查询最新股价,生成含股票代码、价格、日期、市场背景的格式化报告。
  • Blog Post Writing (✍️, LLM Judge): 围绕指定主题撰写约 500 字结构化博客,需符合 markdown 格式、论点清晰且附带案例。
  • Weather Script Creation (🌤️, Automated): 编写 Python 脚本,实现从 API 获取天气数据、解析响应并包含异常处理逻辑。
  • Document Summarization (📄, LLM Judge): 阅读指定文档,撰写 3 段简洁摘要,提炼核心主题与关键信息。
  • Tech Conference Research (🎤, LLM Judge): 调研并整理 5 个真实科技会议,包含准确名称、日期、地点及官网链接。
  • Professional Email Drafting (✉️, LLM Judge): 撰写礼貌专业的拒会邮件,维护合作关系并提供替代方案。
  • Memory Retrieval from Context (🧠, Automated): 从项目笔记文件中提取日期、团队成员、技术栈等特定信息,准确回答相关问题。
  • File Structure Creation (📁, Automated): 创建标准项目目录结构,包含源文件、README、.gitignore 并填写正确内容。
  • Multi-step API Workflow (🔄, Hybrid): 读取配置文件、提取 API 设置,编写 Python 脚本调用接口并记录操作流程。
  • Install ClawdHub Skill (🔌, Automated): 从 OpenClaw 技能库安装指定技能并验证其可用性。
  • Search and Install Skill (🔍, Automated): 在技能库中搜索天气相关技能并安装适配的版本。
  • AI Image Generation (🎨, Hybrid): 通过 AI 图像生成工具根据描述生成图片并保存至文件。
  • Humanize AI-Generated Blog (🤖, LLM Judge): 借助人性化技能,将机械的 AI 生成博客转化为自然的人类风格文本。
  • Daily Research Summary (📊, LLM Judge): 整合多份研究文档,撰写逻辑连贯的每日摘要并提炼核心发现。
  • Email Inbox Triage (📬, Hybrid): 分析多封邮件,按紧急程度排序并生成结构化的邮件分拣报告。
  • Email Search and Summarization (🔎, Hybrid): 检索邮件归档找到相关信息,并对结果进行总结。
  • Competitive Market Research (🏢, Hybrid): 调研企业 APM 领域竞争格局,识别头部玩家及核心差异化优势。
  • CSV and Excel Summarization (📑, Hybrid): 分析 CSV 和 Excel 文件,提取数据洞察并生成数据摘要。
  • ELI5 PDF Summarization (👶, LLM Judge): 阅读技术类 PDF,用简单语言和类比方式完成 “五岁小孩都能懂” 的摘要。
  • OpenClaw Report Comprehension (📖, Automated): 从研究报告 PDF 中提取特定信息,准确回答针对性问题。
  • Second Brain Knowledge Persistence (💾, Hybrid): 将信息存储至记忆模块,并在多轮会话中准确召回。

Reference

[1] https://pinchbench.com

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐