
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
最近几个月,越来越多的开发者开始“养龙虾”:给它加技能、写记忆、调人格,希望它能帮自己处理现实任务。但面对日常工作和生活场景,我们养的“龙虾”,真的可以端到端把事情做完吗?它的“大脑”该用哪个模型,效果最好、性价比最高?这恐怕是所有“养虾”用户都关心的问题。而回看过去一年的各类 Agent Benchmark,大多仍聚焦在“单点能力”的评测,但真实任务更像一场长跑:AI 需要跨模态理解信息,在动态

多模态大模型的崛起,正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样,将图像、文本、语音、视频等信息自然融会贯通时,它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面,而是能够读懂语境、推演逻辑、辅助决策,展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化,多模态大模型正加速从实验室走向产业深处,在越来越多的应用场景中持续释

具备跨模态理解能力的多模态大模型能实现更为丰富、全面的理解与生成,在复杂场景中表现得更接近人类水平,已然成为人工智能领域的重要发展方向。从图文理解、视觉问答到图像推理,模型们看似“万事通”,但真正打动人心、贴近用户需求的模型,究竟该如何评判?国内外主流的闭源模型(如GPT-4.1-20250414、Gemini-2.5-flash等)和开源模型(如InternVL3系列、Qwen2.5-VL系列等

最近几个月,越来越多的开发者开始“养龙虾”:给它加技能、写记忆、调人格,希望它能帮自己处理现实任务。但面对日常工作和生活场景,我们养的“龙虾”,真的可以端到端把事情做完吗?它的“大脑”该用哪个模型,效果最好、性价比最高?这恐怕是所有“养虾”用户都关心的问题。而回看过去一年的各类 Agent Benchmark,大多仍聚焦在“单点能力”的评测,但真实任务更像一场长跑:AI 需要跨模态理解信息,在动态

一个面向多轮澄清的评测基准,通过多维模糊类型和多样化用户模拟,系统评估大语言模型在真实交互中何时提问、何时回答及处理模糊信息的能力。一个用于自然场景下视觉推理能力评测的基准,通过三个复杂度层级系统评估视觉-语言模型在感知补全、规则推理和组合推理上的表现。一个基于计算力学的评测基准,用于系统评估大语言模型生成有限元方法及相关科学代码的能力。司南·Daily Benchmark 专区今日上新!

多模态大模型的崛起,正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样,将图像、文本、语音、视频等信息自然融会贯通时,它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面,而是能够读懂语境、推演逻辑、辅助决策,展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化,多模态大模型正加速从实验室走向产业深处,在越来越多的应用场景中持续释

值得注意的是,开源模型 Ovis2.6-30B-A3B 以 54.37 分排名第五,Step3-VL-10B 以 51.88 分排名第六,两者均为参数量相对较小的开源模型(30B 和 10B),却在推理维度超越了多款大参数闭源模型,这表明推理能力的提升并不完全依赖于参数规模的扩展。Claude-Opus-4-6 以 91.97 分夺冠,Kimi-k2.5(90.05 分)和 SenseNova-V

从 Shell 基准的风险挖掘,到 MENTOR 框架的自进化防御,研究团队致力于为大模型进入垂直行业应用建立一套可量化的安全标准。然而,教育、金融和管理仅仅是起点。随着 AI 深入医疗、法律等更多核心领域,隐性风险的形态将更加复杂。未来的研究将重点关注如何让模型不仅学会遵守规则,更能理解规则背后的价值观,最终实现从外挂式防御向内化式安全的跨越。司南将持续关注并跟进 Shell 基准的迭代更新,欢

多模态大模型的崛起,正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样,将图像、文本、语音、视频等信息自然融会贯通时,它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面,而是能够读懂语境、推演逻辑、辅助决策,展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化,多模态大模型正加速从实验室走向产业深处,在越来越多的应用场景中持续释

目前已发布的榜单包含土木工程榜单、网络安全榜单、金融榜单、价值对齐榜单、法律榜单、医疗榜单。,围绕土木工程教育与工程实践的核心能力,设置了六大评测维度,全面评估大模型在土木工程领域的知识理解、推理能力及应用能力。随着大语言模型在土木工程领域应用的不断拓展,其专业知识的准确性、工程推理能力及实际应用价值亟需科学、客观的评测。测试大模型在测绘案例分析、测绘管理与法律法规、测绘综合应用等方面的能力,评估








