5月8日凌晨,百度搭子DuMate登顶智能体评测基准PinchBench榜首,并在前5位中占据3席,超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。在另外一项DeepResearch深度研究榜单,以及AI产品榜单·AI龙虾增速榜上,百度搭子同样位列第一。

同款模型

百度搭子比原厂更会用

图片

PinchBench是OpenClaw赛道最能体现Agent真实工作能力的评测基准,重点考察Agent在23个真实工作场景下147个任务的多步推理、工具调用和任务闭环能力,并从成功率、速度、成本三个维度综合排名。

PinchBench榜单显示,百度搭子以93.3%和93.2%的总成绩包揽前两名。作为对照,Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。同一个模型,百度搭子比原厂用得更好。

背后是百度搭子的端云协同Harness架构:隐私操作留本地,复杂推理上云端,自动切换;每次执行前根据任务语义和用户历史精准组装上下文,不多塞不漏掉;Harness和Skills基于历史轨迹持续迭代,让不同模型都能稳定跑在能力上限。

DeepResearch Bench是当前对深度研究型Agent最全面的评测基准,从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。

百度搭子以58.03分拿下DeepResearch Bench第一,靠的是自研的Deep Search + Deep Research双引擎,从海量信息中检索、推理、提炼,最终输出结构化的研究报告。

增速第一

真实用户正在涌入

图片

同日发布的AI产品榜单中,百度搭子DuMate以114.72%的月增速登顶龙虾增速榜,116万月访问量跻身总榜前三。增速榜前十仅2款产品正增长,百度搭子是唯一三位数增长的选手。

左右滑动查看更多

不止能评测

更能解决真问题

图片

这些数字对应的是真实场景。长白山野生动物摄影师老万,70岁,每天面对红外相机回传的海量视频,靠人眼逐帧回放找野生动物画面,根本看不过来。

他用百度搭子做了个智能体,直接跟它说:「帮我把视频里有野生动物的画面挑出来,建个新文件夹,按我平时的习惯整理一份监测日志」。百度搭子自动拆解任务,从识别到归档到生成日志,一条龙跑完。没写一行代码,没配一个参数。

一个70岁的老人独立完成了从需求到交付的全过程。

自2026年3月上线以来,百度搭子保持一天一版的更新节奏,已通过信通院两项安全测评且均获最高等级。

5月13日-14日·北京

Create2026小程序现已上线

点击下方卡片参与报名哦⬇️

点击“阅读原文”,立即合作咨询!

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐