logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SuperGPQA:挑战大模型专业知识的基准测试

SuperGPQA是一个全面的大语言模型基准测试,专门设计用于评估模型在285个研究生级别学科中的知识和推理能力。26,529道高质量题目,覆盖13个主要学科领域每个学科至少包含50个问题,确保评估的深度和可靠性77.2%的STEM内容,反映现实世界中专业知识的分布42.33%的问题需要计算,强调推理能力的重要性SuperGPQA不仅仅是一个基准测试,更是AI研究道路上的一座里程碑。它挑战着现有模

#人工智能#深度学习
AgentScope Studio 安装与测试

AgentScope Studio 是一个强大的本地可视化工具包,专为智能体应用开发而设计。它支持项目的管理运行时可视化执行追踪和智能体评估等核心功能。此外,AgentScope Studio 内置了一个名为Friday的 Copilot 助手,具备三重功能:1)作为开发助手;2)作为快速二次开发的实验平台;3)集成AgentScope框架中的高级特性。

#深度学习#人工智能
AgentScope Studio 安装与测试

AgentScope Studio 是一个强大的本地可视化工具包,专为智能体应用开发而设计。它支持项目的管理运行时可视化执行追踪和智能体评估等核心功能。此外,AgentScope Studio 内置了一个名为Friday的 Copilot 助手,具备三重功能:1)作为开发助手;2)作为快速二次开发的实验平台;3)集成AgentScope框架中的高级特性。

#深度学习#人工智能
BrowseComp:为浏览智能体设计的简单而具挑战性的基准测试

BrowseComp(全称Browsing Competition)是一个包含1,266个挑战性问题的基准测试集,专门用于衡量AI代理在互联网上持续导航、寻找难以找到的纠缠信息的能力。该基准测试由OpenAI团队开发,旨在推动更可信赖和可靠的AI代理研究。

BrowseComp:为浏览智能体设计的简单而具挑战性的基准测试

BrowseComp(全称Browsing Competition)是一个包含1,266个挑战性问题的基准测试集,专门用于衡量AI代理在互联网上持续导航、寻找难以找到的纠缠信息的能力。该基准测试由OpenAI团队开发,旨在推动更可信赖和可靠的AI代理研究。

深度探秘GAIA:一个为下一代AI量身打造的挑战性基准

GAIA的全称是“”,它旨在评估那些不仅能生成文本,还具备增强能力(augmented capabilities)的LLM。这包括模型能否高效利用工具、进行检索、甚至是基于上下文进行有效提示的能力。简单来说,GAIA不是关于谁能写出最漂亮的诗歌,而是关于谁能解决更具挑战性的、现实世界中的问题。根据其官方介绍,该基准包含了超过450个“非琐碎且有明确答案的问题”。

#人工智能
LiveCodeBench:一个动态、全面的代码大模型竞技场,揭示谁才是真正的编程高手

正如其论文中所揭示的,当使用 LiveCodeBench 进行时间分段评测时,一些在传统基准上表现优异的模型(如早期的 DeepSeek 和 GPT-4-O)在面对其“截止日期”之后的新题时,性能出现了显著下降。它们的题目可能早已被“投喂”进模型的训练数据中,导致评测结果失真——模型不是靠“真才实学”,而是靠“死记硬背”取得了高分。研究发现,虽然模型在不同任务上的排名大致相关,但相对差距会变化。这

#深度学习
LiveCodeBench:一个动态、全面的代码大模型竞技场,揭示谁才是真正的编程高手

正如其论文中所揭示的,当使用 LiveCodeBench 进行时间分段评测时,一些在传统基准上表现优异的模型(如早期的 DeepSeek 和 GPT-4-O)在面对其“截止日期”之后的新题时,性能出现了显著下降。它们的题目可能早已被“投喂”进模型的训练数据中,导致评测结果失真——模型不是靠“真才实学”,而是靠“死记硬背”取得了高分。研究发现,虽然模型在不同任务上的排名大致相关,但相对差距会变化。这

#深度学习
Qwen3 reranker 测试

这部分代码设置了模型输入的格式和参数。同时定义了系统提示前缀和后缀,将重排序问题转化为二分类问题:文档是否满足查询需求。输出显示处理后的输入形状为[2, 104],表示有2个样本,每个样本的长度为104个token。格式化后的输入包含指令、查询和文档三部分,清晰地告诉模型需要判断文档是否满足查询需求。这部分代码初始化了模型和分词器,为后续的重排序任务做准备。输出结果显示两个示例的相关性分数分别为0

2025 AIME Benchmark:AI 在奥数领域的最新进展

首先,让我们了解一下 AIME。是一项享誉全球的高中数学竞赛,被认为是通往国际数学奥林匹克(IMO)的重要途径。它的题目以其高难度、需要精确计算和深刻的数学洞察力而闻名,涵盖代数、几何、数论和组合学等多个领域。

#人工智能
    共 110 条
  • 1
  • 2
  • 3
  • 11
  • 请选择