logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

全球DeepResearch产品大比拼!Gemini、OpenAI霸榜,Kimi和豆包前五

本研究深入分析了当前大语言模型智能体评估中存在的困境,并提出了首个面向深度研究场景的综合评估基准——。通过基于真实用户需求构建的 100 项高质量任务,以及创新的RACE和FACT评估框架,研究人员系统性地揭示了当前顶尖智能体的能力图谱。评测结果表明,不同智能体在能力上存在显著的权衡,例如,Gemini在报告的信息丰富度上领先,而Perplexity和OpenAI的智能体则在引用精确度上更具优势,

#人工智能#大数据
Manus、Genspark、Coze空间、Minimax横评,谁是最强Agent?

Minimax(深度)擅长信息检索、软件开发、文件和数据处理类任务,在信息检索场景中,Minimax(深度)会主动增加信息来源链接,增强检索召回的置信度,在交付网页等Coding场景中,Minimax(深度)的网站架构更成熟,主动增加搜索、筛选等功能,并通过多次的有效测试和Debug来提高网站的可用性;Minimax(深度)在多模态展示测评中获 3 分评级,运用动态渲染与语义聚合技术,完成展品名称

#人工智能
LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

评测的核心逻辑如图2所示:输入一段视频或图像序列,通过待测的隐式动作模型(Latent Action Model, LAM)提取出动作表征 z ,随后通过浅层探测头(probing)来验证 z 的质量。△图2:LARYBench整体流程动作的定义由细到粗分为三个层级:本体动作:机器人操作的控制信号,主流使用末端位姿,包括腕部3D坐标、3D旋转角及夹爪开闭等。原子语义动作:本体动作聚合为可用自然语言

#人工智能
继 Claw 之后,我们又盘点了这些“真香”Skills

为了帮助大家更顺畅地使用各类 Claw 工具,我们建立了 养虾交流群,群内会免费分享各款 Claw 工具的详细安装教程、实操技巧与最新资源。欢迎扫描下方二维码进群,和志同道合的伙伴一起交流学习,解锁 AI 高效办公新玩法!

文章图片
#人工智能
智能体互评时代开启!PRDBench重塑代码智能体开发能力测评

我们在数据集上评测了当前主流代码智能体,包括商业版(Claude Code、Gemini CLI、CodeX、Qwen Code)和基于 ADK 的最小化智能体(使用 Claude-4.5-Sonnet、Gemini-3-Pro、GPT-5.2、Qwen3-Coder 等作为骨干模型)。代码修改量方面,GPT-5.2 和 Gemini-3-Pro 改动较大(约 1500 行),而 Claude C

文章图片
#人工智能
全网“龙虾”大盘点,腾讯、Kimi、阿里都下场了!哪只“龙虾”最好养?

最近进入科技社区,大概率会被问到一句话:“你了吗?别误会,这可不是真去搞水产养殖,而是指给AI大模型装上“手脚”——这类智能体框架。它能让 AI 从只会“动嘴”出主意,变成能“动手”操作电脑、写周报、改bug的得力助手,。春节后热度不减,国内大厂和创业公司也纷纷入局,Kimi、腾讯、阿里、字节等都推出了自家的“Claw”产品。今天我们就来盘点一下市面上的“龙虾”到底有啥区别,看看哪只最适合你。

文章图片
#人工智能
全网“龙虾”大盘点,腾讯、Kimi、阿里都下场了!哪只“龙虾”最好养?

最近进入科技社区,大概率会被问到一句话:“你了吗?别误会,这可不是真去搞水产养殖,而是指给AI大模型装上“手脚”——这类智能体框架。它能让 AI 从只会“动嘴”出主意,变成能“动手”操作电脑、写周报、改bug的得力助手,。春节后热度不减,国内大厂和创业公司也纷纷入局,Kimi、腾讯、阿里、字节等都推出了自家的“Claw”产品。今天我们就来盘点一下市面上的“龙虾”到底有啥区别,看看哪只最适合你。

文章图片
#人工智能
AGI-Eval 解读 | 警惕静态评测的“重用偏差”:AMemGym 实测显示 RAG 排名倒退,智能体逆袭

当你的个人 AI 助手声称你的偏好,它真的你吗?随着大语言模型在长对话场景中的广泛应用,「记忆能力」已成为衡量对话助手智能水平的关键指标。然而,现有的记忆评测基准几乎都采用静态、离线策略的方式——这就像用「复盘」来评价棋手水平:给你一盘别人下过的棋,问你下一步怎么走。棋手读取的棋局与自己的落子风格无关,评测的只是单点决策能力。记忆评测同样如此,让助手在预先生成的对话历史上作答,交互轨迹与助手自身的

文章图片
Gemini 3 Pro登顶AMO-Bench:大模型数学推理正迈向高效率新阶段

AMO-Bench 的发布及其评测结果,为行业提供了一个观察大模型数学推理能力边界的窗口。从评测数据来看,Gemini 3 Pro 的 63.1% 确立了新的性能基准,而Kimi-K2-Thinking 则展现了国产模型的惊人追赶速度。但值得注意的是,SOTA 模型仍有近 40% 的题目未能稳定解决,这表明复杂数学推理依然是当前 AI 技术亟待攻坚的深水区。

文章图片
新版 DeepSeek-R1 实测,我们发现了这些没写在宣传页的细节

但鉴于世界时区体系包含 24 个时区,该测评项要求以不同时区典型城市为例展示当前时间,实际呈现的时区对应城市数量不足,存在内容缺失情况,未能构建完整覆盖的世界时钟信息体系,且存在事实性错误,将迪拜的时区划分在亚洲时区里,未完全满足测评设定的需求标准。生成的代码结构完整,耗时较长,能够生成完整的前端演示文稿代码和6张幻灯片,涵盖产品介绍、市场分析、功能特性、评测体系和模型对比等模块,产品介绍模块与官

文章图片
#DeepSeek#人工智能#语言模型
    共 33 条
  • 1
  • 2
  • 3
  • 4
  • 请选择