全球最能打的龙虾!百度搭子DuMate登顶三大榜单
PinchBench是OpenClaw赛道最能体现Agent真实工作能力的评测基准,重点考察Agent在23个真实工作场景下147个任务的多步推理、工具调用和任务闭环能力,并从成功率、速度、成本三个维度综合排名。58.03分拿下DeepResearch Bench第一,靠的是自研的Deep Search + Deep Research双引擎,从海量信息中检索、推理、提炼,最终输出结构化的研究报告。

5月8日凌晨,百度搭子DuMate登顶智能体评测基准PinchBench榜首,并在前5位中占据3席,超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。在另外一项DeepResearch深度研究榜单,以及AI产品榜单·AI龙虾增速榜上,百度搭子同样位列第一。
同款模型
百度搭子比原厂更会用

PinchBench是OpenClaw赛道最能体现Agent真实工作能力的评测基准,重点考察Agent在23个真实工作场景下147个任务的多步推理、工具调用和任务闭环能力,并从成功率、速度、成本三个维度综合排名。
PinchBench榜单显示,百度搭子以93.3%和93.2%的总成绩包揽前两名。作为对照,Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。同一个模型,百度搭子比原厂用得更好。

背后是百度搭子的端云协同Harness架构:隐私操作留本地,复杂推理上云端,自动切换;每次执行前根据任务语义和用户历史精准组装上下文,不多塞不漏掉;Harness和Skills基于历史轨迹持续迭代,让不同模型都能稳定跑在能力上限。
DeepResearch Bench是当前对深度研究型Agent最全面的评测基准,从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。
百度搭子以58.03分拿下DeepResearch Bench第一,靠的是自研的Deep Search + Deep Research双引擎,从海量信息中检索、推理、提炼,最终输出结构化的研究报告。

增速第一
真实用户正在涌入

同日发布的AI产品榜单中,百度搭子DuMate以114.72%的月增速登顶龙虾增速榜,116万月访问量跻身总榜前三。增速榜前十仅2款产品正增长,百度搭子是唯一三位数增长的选手。


左右滑动查看更多
不止能评测
更能解决真问题

这些数字对应的是真实场景。长白山野生动物摄影师老万,70岁,每天面对红外相机回传的海量视频,靠人眼逐帧回放找野生动物画面,根本看不过来。
他用百度搭子做了个智能体,直接跟它说:「帮我把视频里有野生动物的画面挑出来,建个新文件夹,按我平时的习惯整理一份监测日志」。百度搭子自动拆解任务,从识别到归档到生成日志,一条龙跑完。没写一行代码,没配一个参数。
一个70岁的老人独立完成了从需求到交付的全过程。
自2026年3月上线以来,百度搭子保持一天一版的更新节奏,已通过信通院两项安全测评且均获最高等级。

5月13日-14日·北京
Create2026小程序现已上线
点击下方卡片参与报名哦⬇️












点击“阅读原文”,立即合作咨询!
更多推荐




所有评论(0)