AGI_Eval 个人主页

@AGI_Eval

AGI_Eval

2025-02-05 11:32:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

全球图生视频AI模型排名出炉！Seedance 1.0夺冠，Gen4垫底

我们不仅见证了多模态图生视频技术的突破性进展，更欣喜地看到国产模型已在这场技术竞赛中领跑全球——从评测榜单可见，Seedance 1.0、PixVerse V4 等国产模型以显著优势霸榜，而 Pika 2.2、Gen4 这类海外模型则遗憾垫底，国产图生视频技术已实现从“跟跑”到“领跑”的跨越。风的流速、重力的牵引、肌肉的舒展……这些人类习以为常的“常识”，恰恰是 AI 最难跨越的。从这场多模态图生

#人工智能 #音视频

AI 巅峰对决：GPT、Qwen 领衔五子棋与德扑，Claude 竟未进前三？

我们提出了一个迭代式的、基于伙伴学习的竞争性评测框架；推出了 CATArena 这一包含多样化、开放式游戏的评测基准；并设计了一套全面的评测矩阵，从而对智能体的核心能力进行可靠、稳定且可扩展的评估。CATArena 的远景不止于此，未来，计划补齐国际象棋与桥牌，在现有四大经典博弈场景的基础上，CATArena 的竞技场将进一步延伸至算法竞赛代码优化、工程代码优化等更为复杂的编程任务中。我们坚信，通

#人工智能

Gemini 3 Pro登顶AMO-Bench：大模型数学推理正迈向高效率新阶段

AMO-Bench 的发布及其评测结果，为行业提供了一个观察大模型数学推理能力边界的窗口。从评测数据来看，Gemini 3 Pro 的 63.1% 确立了新的性能基准，而Kimi-K2-Thinking 则展现了国产模型的惊人追赶速度。但值得注意的是，SOTA 模型仍有近 40% 的题目未能稳定解决，这表明复杂数学推理依然是当前 AI 技术亟待攻坚的深水区。

美团 LongCat 团队发布 VitaBench：基于复杂生活场景的交互式 Agent 评测基准

美团LongCat团队发布VitaBench智能体评测基准，聚焦外卖、餐饮、旅游三大真实生活场景。该基准包含66个工具构成的交互环境，通过深度推理、工具使用和用户交互三个维度量化任务复杂度。实验显示，即使是先进模型在跨场景任务中的成功率仅30%，暴露出与真实应用需求的显著差距。VitaBench采用创新评估方法，如基于Rubric的滑动窗口评估器，为智能体研发提供更精准的评测工具。目前该基准已开源

#生活

美团 LongCat 团队发布 VitaBench：基于复杂生活场景的交互式 Agent 评测基准

#生活

全球首个语音合成图灵测试重磅发布！揭秘AI能否用语音骗过人类？

语音合成图灵测试框架包含一个标准化的人类评估协议，并配套建设了专用数据集——ATT-Corpus，旨在解决当前语音合成评估中缺乏统一评估标准、不同系统难以公平对比的问题。为实现更全面的能力评估，专用数据集（ATT-Corpus）在设计时覆盖了多维度能力，能够帮助分析和揭示不同 TTS（语音合成）系统之间的具体能力差异，不仅关注整体表现，还关注细分技能表现。

#人工智能 #语音识别

全球文生图AI模型大比拼！Dreamina 3.0超越GPT-4o登顶，国产AI崛起

结果显示，以 Dreamina 3.0 、 Halfmoon 、GPT-4o 为代表的模型已构成行业领先梯队，在图文理解、图像生成质量等方面表现卓越。值得关注的，是那些“超预期”的亮点：Dreamina 3.0 在图文一致性上的“精准控场”，GPT-4o 在字符生成上的惊艳表现，Halfmoon 在多图任务里的稳定输出……人物文生图，GPT-4o、Dreamina 3.0 生成的图片在光影等美学维

#人工智能 #机器学习

全球DeepResearch产品大比拼！Gemini、OpenAI霸榜，Kimi和豆包前五

本研究深入分析了当前大语言模型智能体评估中存在的困境，并提出了首个面向深度研究场景的综合评估基准——。通过基于真实用户需求构建的 100 项高质量任务，以及创新的RACE和FACT评估框架，研究人员系统性地揭示了当前顶尖智能体的能力图谱。评测结果表明，不同智能体在能力上存在显著的权衡，例如，Gemini在报告的信息丰富度上领先，而Perplexity和OpenAI的智能体则在引用精确度上更具优势，

#人工智能 #大数据

六大Agent产品大比拼！扣子空间凭国产模型跻身Agent第一梯队

从本期的实测案例可以看出，各 Agent 产品在不同任务类型上展现出了差异化的能力特征。在文件与数据处理方面，扣子空间表现突出；而在软件开发、信息检索和 GUI 操作等任务上，各产品则各有长短，这反映出当前 Agent 整体仍处于从“可用”向“好用”发展的关键阶段。本次评测揭示了产品背后的决策模型的通用能力是决定 Agent 应用上限的关键因素。扣子空间基于 Seed1.6 模型实现的性能跃升，便

#人工智能 #大数据

AI画图越来越逼真，却当不好图像质检员｜AGI-Eval独家托管A-Bench

当下，文生图 AI 正处于"能用"与"好用"的过渡地带。指令遵循能力与画质表现，将是其向工业化应用迈进过程中的两大核心命题。例如下图测试案例进一步印证了这一研究的必要性：左侧图像在处理"秋日小镇里，复古马车行驶在铺满落叶的街道上"时出现建筑比例失调、空间构图混乱等明显缺陷；右侧的"波普风女性肖像"则暴露出五官比例异常、色彩搭配杂乱等质量问题。业界虽然开始广泛采用多模态大模型作为 AI 图像的自动化

#人工智能 #计算机视觉

共 16 条

请选择