logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI密室逃脱:16款顶级AI上演真实逃生,谁是最后赢家?

复旦大学与AGI-Eval社区联合发布《AgentEscapeBench》论文,通过270个密室逃脱游戏测试16个主流AI模型的长程推理能力。研究发现:1)Claude-Opus表现最稳健,25级难度仍保持60%成功率;2)GPT-5.4思路广但效率低,工具调用次数是Claude的2倍;3)模型性能随难度增加呈系统性衰退,工作记忆和逻辑一致性是主要瓶颈。该研究揭示了AI在陌生环境中的真实能力边界,

文章图片
#人工智能
全网“龙虾”大盘点,腾讯、Kimi、阿里都下场了!哪只“龙虾”最好养?

最近进入科技社区,大概率会被问到一句话:“你了吗?别误会,这可不是真去搞水产养殖,而是指给AI大模型装上“手脚”——这类智能体框架。它能让 AI 从只会“动嘴”出主意,变成能“动手”操作电脑、写周报、改bug的得力助手,。春节后热度不减,国内大厂和创业公司也纷纷入局,Kimi、腾讯、阿里、字节等都推出了自家的“Claw”产品。今天我们就来盘点一下市面上的“龙虾”到底有啥区别,看看哪只最适合你。

文章图片
#人工智能
《杀戮尖塔2》成了 DeepSeek V4 的照妖镜|写得头头是道,怎么一打就废?

看似是大模型比拼《杀戮尖塔2》游戏能力,实则能直观暴露大模型的真实上限与短板。静态问答中,模型依靠知识与表达就能得分,但爬塔需要局势判断、资源管理、长线规划与试错复盘。这也拉开了模型差距:有的空谈逻辑却难以落地,有的稳步迭代、执行力与纪律性更强。现实里的编程、统筹、长期规划等复杂问题,更像持续闯关的爬塔,而非标准答案式问答。

文章图片
#人工智能
《杀戮尖塔2》成了 DeepSeek V4 的照妖镜|写得头头是道,怎么一打就废?

看似是大模型比拼《杀戮尖塔2》游戏能力,实则能直观暴露大模型的真实上限与短板。静态问答中,模型依靠知识与表达就能得分,但爬塔需要局势判断、资源管理、长线规划与试错复盘。这也拉开了模型差距:有的空谈逻辑却难以落地,有的稳步迭代、执行力与纪律性更强。现实里的编程、统筹、长期规划等复杂问题,更像持续闯关的爬塔,而非标准答案式问答。

文章图片
#人工智能
《杀戮尖塔2》成了 DeepSeek V4 的照妖镜|写得头头是道,怎么一打就废?

看似是大模型比拼《杀戮尖塔2》游戏能力,实则能直观暴露大模型的真实上限与短板。静态问答中,模型依靠知识与表达就能得分,但爬塔需要局势判断、资源管理、长线规划与试错复盘。这也拉开了模型差距:有的空谈逻辑却难以落地,有的稳步迭代、执行力与纪律性更强。现实里的编程、统筹、长期规划等复杂问题,更像持续闯关的爬塔,而非标准答案式问答。

文章图片
#人工智能
全球DeepResearch产品大比拼!Gemini、OpenAI霸榜,Kimi和豆包前五

本研究深入分析了当前大语言模型智能体评估中存在的困境,并提出了首个面向深度研究场景的综合评估基准——。通过基于真实用户需求构建的 100 项高质量任务,以及创新的RACE和FACT评估框架,研究人员系统性地揭示了当前顶尖智能体的能力图谱。评测结果表明,不同智能体在能力上存在显著的权衡,例如,Gemini在报告的信息丰富度上领先,而Perplexity和OpenAI的智能体则在引用精确度上更具优势,

#人工智能#大数据
Manus、Genspark、Coze空间、Minimax横评,谁是最强Agent?

Minimax(深度)擅长信息检索、软件开发、文件和数据处理类任务,在信息检索场景中,Minimax(深度)会主动增加信息来源链接,增强检索召回的置信度,在交付网页等Coding场景中,Minimax(深度)的网站架构更成熟,主动增加搜索、筛选等功能,并通过多次的有效测试和Debug来提高网站的可用性;Minimax(深度)在多模态展示测评中获 3 分评级,运用动态渲染与语义聚合技术,完成展品名称

#人工智能
LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

评测的核心逻辑如图2所示:输入一段视频或图像序列,通过待测的隐式动作模型(Latent Action Model, LAM)提取出动作表征 z ,随后通过浅层探测头(probing)来验证 z 的质量。△图2:LARYBench整体流程动作的定义由细到粗分为三个层级:本体动作:机器人操作的控制信号,主流使用末端位姿,包括腕部3D坐标、3D旋转角及夹爪开闭等。原子语义动作:本体动作聚合为可用自然语言

#人工智能
继 Claw 之后,我们又盘点了这些“真香”Skills

为了帮助大家更顺畅地使用各类 Claw 工具,我们建立了 养虾交流群,群内会免费分享各款 Claw 工具的详细安装教程、实操技巧与最新资源。欢迎扫描下方二维码进群,和志同道合的伙伴一起交流学习,解锁 AI 高效办公新玩法!

文章图片
#人工智能
智能体互评时代开启!PRDBench重塑代码智能体开发能力测评

我们在数据集上评测了当前主流代码智能体,包括商业版(Claude Code、Gemini CLI、CodeX、Qwen Code)和基于 ADK 的最小化智能体(使用 Claude-4.5-Sonnet、Gemini-3-Pro、GPT-5.2、Qwen3-Coder 等作为骨干模型)。代码修改量方面,GPT-5.2 和 Gemini-3-Pro 改动较大(约 1500 行),而 Claude C

文章图片
#人工智能
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择