logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

通用安全 ≠ 行业可用!领域安全榜单揭示大模型垂域隐性风险 | 安全评测

从 Shell 基准的风险挖掘,到 MENTOR 框架的自进化防御,研究团队致力于为大模型进入垂直行业应用建立一套可量化的安全标准。然而,教育、金融和管理仅仅是起点。随着 AI 深入医疗、法律等更多核心领域,隐性风险的形态将更加复杂。未来的研究将重点关注如何让模型不仅学会遵守规则,更能理解规则背后的价值观,最终实现从外挂式防御向内化式安全的跨越。司南将持续关注并跟进 Shell 基准的迭代更新,欢

文章图片
#人工智能
GPT-5卫冕榜首!工具调用能力成AI新战场丨大语言模型10月最新榜单揭晓

大模型技术在全球范围内持续演进,各大科技公司纷纷推出新一代模型,重点强化智能体方向的核心能力,包括编程、工具使用和深度信息检索等,无一不在提升实际问题解决能力。伴随着技术升级,越来越多能够解决实际问题的智能体正在涌现——它们能够自主规划任务、协同执行指令,在科研、编程、商业分析等领域展现出切实价值。与此同时,中国大模型在全球持续引人注目,在海外社区引发广泛讨论,展示出中国在大模型研发与应用方面的强

文章图片
#人工智能#语言模型#自然语言处理
土木工程领域大模型哪家强?六大维度全面评测!

目前已发布的榜单包含土木工程榜单、网络安全榜单、金融榜单、价值对齐榜单、法律榜单、医疗榜单。,围绕土木工程教育与工程实践的核心能力,设置了六大评测维度,全面评估大模型在土木工程领域的知识理解、推理能力及应用能力。随着大语言模型在土木工程领域应用的不断拓展,其专业知识的准确性、工程推理能力及实际应用价值亟需科学、客观的评测。测试大模型在测绘案例分析、测绘管理与法律法规、测绘综合应用等方面的能力,评估

文章图片
#人工智能
GPT-5-2025-08-07登顶!工具调用能力呈多元化竞争态势丨大语言模型7月最新榜单揭晓

GPT-5-2025-08-07登顶!国产开源模型比肩海外闭源模型丨大语言模型7月最新榜单揭晓步入2025年下半年,大模型的竞争焦点不再仅仅是‘比参数、卷榜单’,而是转向通用能力与专业能力的深度融合,更加注重实用价值。技术演进也不再局限于语言理解与生成的单一维度,而是迈向知识注入与技能融合的深层进化。越来越多的大模型被赋予代码编写、数学推理、科研理解等多学科能力,既能胜任日常对话任务,又能胜任复杂

文章图片
#语言模型#人工智能
Gemini-3-Pro 强势登顶,GPT-5.1 转向“创作型选手”?丨多模态模型11月最新榜单揭晓

多模态大模型的崛起,正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样,将图像、文本、语音、视频等信息自然融会贯通时,它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面,而是能够读懂语境、推演逻辑、辅助决策,展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化,多模态大模型正加速从实验室走向产业深处,在越来越多的应用场景中持续释

文章图片
#人工智能
断层式领先!Gemini 3.0全方位评测新鲜出炉

近期,谷歌发布了新一代大模型Gemini 3.0,被视为谷歌重回AI第一阵营的关键里程碑。通用基准方面,Gemini-3-Pro-Preview在MMLU-Pro、GPQA-Diamond、MathVision、MMStar等多个基准上的表现显著领先其他模型,展现出了超越现有标杆的通用认知与推理能力。司南OpenCompass对Gemini-3-Pro-Preview的通用文本能力、学科专业文本能

文章图片
#人工智能
衡量AI真实科研能力!司南科学智能评测上线

随着人工智能与科学研究的深度融合,AI 驱动的科学发现正进入加速发展期。在这一背景下,如何地衡量模型在真实科研场景中的能力,已成为推动 AI for Science 可持续发展的关键。近日,司南(OpenCompass)官网正式上线,依托书生科学发现平台,构建面向多学科、多模态的科学智能评测,专注衡量大模型、智能体在核心科研能力上的真实水平,为科学智能提供可量化、可对比、可迭代的能力坐标。今年 7

文章图片
#人工智能
每日 AI 评测速递来啦(12.1)

系统评估多模态大模型在视觉场景下结构化输出能力的基准,覆盖四大视觉领域,包括 UI 界面、自然图像、文档以及图表,由超过 6,500 个多样化的 JSON 模式和 1,800 个人工精挑细选、质量经人工验证的图像-模式配对构成。首个面向 AI 生成图像检测的推理增强多模态基准,通过多轻量级专家模型构建证据链,记录逐步推理轨迹与论证,实现可验证、可解释的取证评估。一个专为评估医疗多模态大模型多图像理

文章图片
#人工智能
DeepSeek-V3.2-Speciale展现世界一流数学能力丨最新公开学术榜单发布

在 MMLU-Pro 基准和 GPQA-Diamond 基准上,各模型得分均与 GPT-5-2025-08-07 相当,以几分之差落后于 Gemini-3-Pro-Preview。随着大语言模型领域进入高速发展阶段,创新活力不断释放,优质模型密集涌现,头部模型的能力迭代节奏也在持续加快。在衡量高难度数学竞赛能力的 AIME2025 基准,以及指令跟随基准 IFEval上,最新一代国产开源模型能力已

文章图片
#人工智能
衡量AI真实科研能力!司南科学智能评测上线

随着人工智能与科学研究的深度融合,AI 驱动的科学发现正进入加速发展期。在这一背景下,如何地衡量模型在真实科研场景中的能力,已成为推动 AI for Science 可持续发展的关键。近日,司南(OpenCompass)官网正式上线,依托书生科学发现平台,构建面向多学科、多模态的科学智能评测,专注衡量大模型、智能体在核心科研能力上的真实水平,为科学智能提供可量化、可对比、可迭代的能力坐标。今年 7

文章图片
#人工智能
    共 33 条
  • 1
  • 2
  • 3
  • 4
  • 请选择