
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
我们不仅见证了多模态图生视频技术的突破性进展,更欣喜地看到国产模型已在这场技术竞赛中领跑全球——从评测榜单可见,Seedance 1.0、PixVerse V4 等国产模型以显著优势霸榜,而 Pika 2.2、Gen4 这类海外模型则遗憾垫底,国产图生视频技术已实现从“跟跑”到“领跑”的跨越。风的流速、重力的牵引、肌肉的舒展……这些人类习以为常的“常识”,恰恰是 AI 最难跨越的。从这场多模态图生
我们提出了一个迭代式的、基于伙伴学习的竞争性评测框架;推出了 CATArena 这一包含多样化、开放式游戏的评测基准;并设计了一套全面的评测矩阵,从而对智能体的核心能力进行可靠、稳定且可扩展的评估。CATArena 的远景不止于此,未来,计划补齐国际象棋与桥牌,在现有四大经典博弈场景的基础上,CATArena 的竞技场将进一步延伸至算法竞赛代码优化、工程代码优化等更为复杂的编程任务中。我们坚信,通

AMO-Bench 的发布及其评测结果,为行业提供了一个观察大模型数学推理能力边界的窗口。从评测数据来看,Gemini 3 Pro 的 63.1% 确立了新的性能基准,而Kimi-K2-Thinking 则展现了国产模型的惊人追赶速度。但值得注意的是,SOTA 模型仍有近 40% 的题目未能稳定解决,这表明复杂数学推理依然是当前 AI 技术亟待攻坚的深水区。

美团LongCat团队发布VitaBench智能体评测基准,聚焦外卖、餐饮、旅游三大真实生活场景。该基准包含66个工具构成的交互环境,通过深度推理、工具使用和用户交互三个维度量化任务复杂度。实验显示,即使是先进模型在跨场景任务中的成功率仅30%,暴露出与真实应用需求的显著差距。VitaBench采用创新评估方法,如基于Rubric的滑动窗口评估器,为智能体研发提供更精准的评测工具。目前该基准已开源

美团LongCat团队发布VitaBench智能体评测基准,聚焦外卖、餐饮、旅游三大真实生活场景。该基准包含66个工具构成的交互环境,通过深度推理、工具使用和用户交互三个维度量化任务复杂度。实验显示,即使是先进模型在跨场景任务中的成功率仅30%,暴露出与真实应用需求的显著差距。VitaBench采用创新评估方法,如基于Rubric的滑动窗口评估器,为智能体研发提供更精准的评测工具。目前该基准已开源

语音合成图灵测试框架包含一个标准化的人类评估协议,并配套建设了专用数据集——ATT-Corpus,旨在解决当前语音合成评估中缺乏统一评估标准、不同系统难以公平对比的问题。为实现更全面的能力评估,专用数据集(ATT-Corpus)在设计时覆盖了多维度能力,能够帮助分析和揭示不同 TTS(语音合成)系统之间的具体能力差异,不仅关注整体表现,还关注细分技能表现。
结果显示,以 Dreamina 3.0 、 Halfmoon 、GPT-4o 为代表的模型已构成行业领先梯队,在图文理解、图像生成质量等方面表现卓越。值得关注的,是那些“超预期”的亮点:Dreamina 3.0 在图文一致性上的“精准控场”,GPT-4o 在字符生成上的惊艳表现,Halfmoon 在多图任务里的稳定输出……人物文生图,GPT-4o、Dreamina 3.0 生成的图片在光影等美学维

本研究深入分析了当前大语言模型智能体评估中存在的困境,并提出了首个面向深度研究场景的综合评估基准——。通过基于真实用户需求构建的 100 项高质量任务,以及创新的RACE和FACT评估框架,研究人员系统性地揭示了当前顶尖智能体的能力图谱。评测结果表明,不同智能体在能力上存在显著的权衡,例如,Gemini在报告的信息丰富度上领先,而Perplexity和OpenAI的智能体则在引用精确度上更具优势,
从本期的实测案例可以看出,各 Agent 产品在不同任务类型上展现出了差异化的能力特征。在文件与数据处理方面,扣子空间表现突出;而在软件开发、信息检索和 GUI 操作等任务上,各产品则各有长短,这反映出当前 Agent 整体仍处于从“可用”向“好用”发展的关键阶段。本次评测揭示了产品背后的决策模型的通用能力是决定 Agent 应用上限的关键因素。扣子空间基于 Seed1.6 模型实现的性能跃升,便

当下,文生图 AI 正处于"能用"与"好用"的过渡地带。指令遵循能力与画质表现,将是其向工业化应用迈进过程中的两大核心命题。例如下图测试案例进一步印证了这一研究的必要性:左侧图像在处理"秋日小镇里,复古马车行驶在铺满落叶的街道上"时出现建筑比例失调、空间构图混乱等明显缺陷;右侧的"波普风女性肖像"则暴露出五官比例异常、色彩搭配杂乱等质量问题。业界虽然开始广泛采用多模态大模型作为 AI 图像的自动化








