logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

美团LongCat团队发布VitaBench智能体评测基准,聚焦外卖、餐饮、旅游三大真实生活场景。该基准包含66个工具构成的交互环境,通过深度推理、工具使用和用户交互三个维度量化任务复杂度。实验显示,即使是先进模型在跨场景任务中的成功率仅30%,暴露出与真实应用需求的显著差距。VitaBench采用创新评估方法,如基于Rubric的滑动窗口评估器,为智能体研发提供更精准的评测工具。目前该基准已开源

文章图片
#生活
美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

美团LongCat团队发布VitaBench智能体评测基准,聚焦外卖、餐饮、旅游三大真实生活场景。该基准包含66个工具构成的交互环境,通过深度推理、工具使用和用户交互三个维度量化任务复杂度。实验显示,即使是先进模型在跨场景任务中的成功率仅30%,暴露出与真实应用需求的显著差距。VitaBench采用创新评估方法,如基于Rubric的滑动窗口评估器,为智能体研发提供更精准的评测工具。目前该基准已开源

文章图片
#生活
美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

美团LongCat团队发布VitaBench智能体评测基准,聚焦外卖、餐饮、旅游三大真实生活场景。该基准包含66个工具构成的交互环境,通过深度推理、工具使用和用户交互三个维度量化任务复杂度。实验显示,即使是先进模型在跨场景任务中的成功率仅30%,暴露出与真实应用需求的显著差距。VitaBench采用创新评估方法,如基于Rubric的滑动窗口评估器,为智能体研发提供更精准的评测工具。目前该基准已开源

文章图片
#生活
多模态模型开箱评测:阿里Qwen3-Omni“原生全模态”的理想与现实

阿里巴巴发布新一代原生全模态大模型Qwen3-Omni,其宣称在多项音视频基准测试中达到了SOTA(State-of-the-Art)水平,引发业界广泛关注。该模型的技术亮点在于其“原生全模态”架构,与传统的“模块化”设计不同,它旨在从一开始就构建一个能同时“看、听、说”的统一系统。为探究其在真实交互场景下的能力,AGI-Eval大模型评测社区对其展开了专项评测。根据 AGI-Eval 的评测结论

文章图片
#人工智能#大数据
【AGI-Eval评测报告】深度拆解 Qwen3,刷榜之外,更需构建全面评测新体系

前几天,阿里巴巴正式开源新一代通义千问模型 Qwen3。上期我们从创作、分析、操作和问答四方面进行了任务实测,本期聚焦其通用能力与应用场景评测。OpenAI 员工、姚班校友姚顺雨发布文章《大模型下半场是产品的游戏,做研究也要有产品思维》,人工智能的重点,已经从“解决问题”转向了“定义问题”,评估或许比训练更重要。模型评测中,应摒弃 “刷榜” 思维,以全面评测视角牵引训练反映模型真实性能,进而推动模

文章图片
全球首个语音合成图灵测试重磅发布!揭秘AI能否用语音骗过人类?

语音合成图灵测试框架包含一个标准化的人类评估协议,并配套建设了专用数据集——ATT-Corpus,旨在解决当前语音合成评估中缺乏统一评估标准、不同系统难以公平对比的问题。为实现更全面的能力评估,专用数据集(ATT-Corpus)在设计时覆盖了多维度能力,能够帮助分析和揭示不同 TTS(语音合成)系统之间的具体能力差异,不仅关注整体表现,还关注细分技能表现。

#人工智能#语音识别
全球文生图AI模型大比拼!Dreamina 3.0超越GPT-4o登顶,国产AI崛起

结果显示,以 Dreamina 3.0 、 Halfmoon 、GPT-4o 为代表的模型已构成行业领先梯队,在图文理解、图像生成质量等方面表现卓越。值得关注的,是那些“超预期”的亮点:Dreamina 3.0 在图文一致性上的“精准控场”,GPT-4o 在字符生成上的惊艳表现,Halfmoon 在多图任务里的稳定输出……人物文生图,GPT-4o、Dreamina 3.0 生成的图片在光影等美学维

文章图片
#人工智能#机器学习
全球DeepResearch产品大比拼!Gemini、OpenAI霸榜,Kimi和豆包前五

本研究深入分析了当前大语言模型智能体评估中存在的困境,并提出了首个面向深度研究场景的综合评估基准——。通过基于真实用户需求构建的 100 项高质量任务,以及创新的RACE和FACT评估框架,研究人员系统性地揭示了当前顶尖智能体的能力图谱。评测结果表明,不同智能体在能力上存在显著的权衡,例如,Gemini在报告的信息丰富度上领先,而Perplexity和OpenAI的智能体则在引用精确度上更具优势,

#人工智能#大数据
六大Agent产品大比拼!扣子空间凭国产模型跻身Agent第一梯队

从本期的实测案例可以看出,各 Agent 产品在不同任务类型上展现出了差异化的能力特征。在文件与数据处理方面,扣子空间表现突出;而在软件开发、信息检索和 GUI 操作等任务上,各产品则各有长短,这反映出当前 Agent 整体仍处于从“可用”向“好用”发展的关键阶段。本次评测揭示了产品背后的决策模型的通用能力是决定 Agent 应用上限的关键因素。扣子空间基于 Seed1.6 模型实现的性能跃升,便

文章图片
#人工智能#大数据
AI画图越来越逼真,却当不好图像质检员|AGI-Eval独家托管A-Bench

当下,文生图 AI 正处于"能用"与"好用"的过渡地带。指令遵循能力与画质表现,将是其向工业化应用迈进过程中的两大核心命题。例如下图测试案例进一步印证了这一研究的必要性:左侧图像在处理"秋日小镇里,复古马车行驶在铺满落叶的街道上"时出现建筑比例失调、空间构图混乱等明显缺陷;右侧的"波普风女性肖像"则暴露出五官比例异常、色彩搭配杂乱等质量问题。业界虽然开始广泛采用多模态大模型作为 AI 图像的自动化

文章图片
#人工智能#计算机视觉
    共 23 条
  • 1
  • 2
  • 3
  • 请选择