全球最能打的龙虾！百度搭子DuMate登顶三大榜单

PinchBench是OpenClaw赛道最能体现Agent真实工作能力的评测基准，重点考察Agent在23个真实工作场景下147个任务的多步推理、工具调用和任务闭环能力，并从成功率、速度、成本三个维度综合排名。58.03分拿下DeepResearch Bench第一，靠的是自研的Deep Search + Deep Research双引擎，从海量信息中检索、推理、提炼，最终输出结构化的研究报告。

百度智能云

127人浏览 · 2026-05-09 19:59:16

百度智能云 · 2026-05-09 19:59:16 发布

5月8日凌晨，百度搭子DuMate登顶智能体评测基准PinchBench榜首，并在前5位中占据3席，超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。在另外一项DeepResearch深度研究榜单，以及AI产品榜单·AI龙虾增速榜上，百度搭子同样位列第一。

同款模型

百度搭子比原厂更会用

PinchBench是OpenClaw赛道最能体现Agent真实工作能力的评测基准，重点考察Agent在23个真实工作场景下147个任务的多步推理、工具调用和任务闭环能力，并从成功率、速度、成本三个维度综合排名。

PinchBench榜单显示，百度搭子以93.3%和93.2%的总成绩包揽前两名。作为对照，Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。同一个模型，百度搭子比原厂用得更好。

背后是百度搭子的端云协同Harness架构：隐私操作留本地，复杂推理上云端，自动切换；每次执行前根据任务语义和用户历史精准组装上下文，不多塞不漏掉；Harness和Skills基于历史轨迹持续迭代，让不同模型都能稳定跑在能力上限。

DeepResearch Bench是当前对深度研究型Agent最全面的评测基准，从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。

百度搭子以58.03分拿下DeepResearch Bench第一，靠的是自研的Deep Search + Deep Research双引擎，从海量信息中检索、推理、提炼，最终输出结构化的研究报告。

增速第一

真实用户正在涌入

同日发布的AI产品榜单中，百度搭子DuMate以114.72%的月增速登顶龙虾增速榜，116万月访问量跻身总榜前三。增速榜前十仅2款产品正增长，百度搭子是唯一三位数增长的选手。

左右滑动查看更多

不止能评测

更能解决真问题

这些数字对应的是真实场景。长白山野生动物摄影师老万，70岁，每天面对红外相机回传的海量视频，靠人眼逐帧回放找野生动物画面，根本看不过来。

他用百度搭子做了个智能体，直接跟它说：「帮我把视频里有野生动物的画面挑出来，建个新文件夹，按我平时的习惯整理一份监测日志」。百度搭子自动拆解任务，从识别到归档到生成日志，一条龙跑完。没写一行代码，没配一个参数。

一个70岁的老人独立完成了从需求到交付的全过程。

自2026年3月上线以来，百度搭子保持一天一版的更新节奏，已通过信通院两项安全测评且均获最高等级。

5月13日-14日·北京

Create2026小程序现已上线

点击下方卡片参与报名哦⬇️

点击“阅读原文”，立即合作咨询！

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

cover

Agent 执行 Shell 命令：Docker 沙箱真的能防住 rm -rf 吗？

龙虾开发者社区

cover

常驻网关如何避免被邻居的Agent误触发？局域网发现协议的安全实践

龙虾开发者社区

cover

Agent 网关崩溃重启：会话状态持久化的工程实践与选型陷阱

龙虾开发者社区

所有评论(0)

查看更多评论

百度智能云

@weixin_48493350

已为社区贡献12条内容