logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

谷歌Gemma 4实测

Gemma 4共发布了四个尺寸版本,本次评测的gemma-4-31b-it是其中参数量最大的Dense版本,拥有310亿参数,原生视觉理解、140+语言以及原生函数调用能力。在官方公布的Arena AI排行榜上,Gemma 4 31B位列全球开源模型第3名,展现出远超其参数规模的竞争力。官方特别指出,Gemma 4在该排行榜上超越了参数量达其20倍的模型(截至 4 月 1 日)。在当前主流大模型竞

#人工智能
阿里Qwen3.6-Plus实测

官方宣称,Qwen3.6-Plus相较于前代模型实现了全方位的能力升级,其中最核心的升级方向是智能体编程能力——无论是前端网页开发还是复杂的代码仓库级问题求解,Qwen3.6-Plus均树立了新的业界标杆。id=qwen3.6)将Qwen3.6-Plus定位为"面向真实世界的Agent",并从语言能力和视觉语言能力两大维度展示了其评测成绩。在多模态能力上,Qwen3.6-Plus围绕推理能力增强、

#人工智能
大模型表格识别能力实测:GPT-5.4小模型与小米MiMo正面交锋,表格识别谁翻车了?

首次参评即跻身中游,超过了 gpt-5.3-chat(56%)、ERNIE-5.0(56%)等选手,与 Qwen3.5-122B-A10B、Doubao-Seed-2.0-lite 同处 58% 梯队。gpt-5.4-Mini 是 OpenAI 3 月 17 日发布的高效小模型,速度是上代 gpt-5 Mini 的 2 倍以上,在 SWE-Bench Pro 等编码基准上接近旗舰 gpt-5.4。

文章图片
#人工智能
大模型表格识别能力实测:GPT-5.4小模型与小米MiMo正面交锋,表格识别谁翻车了?

首次参评即跻身中游,超过了 gpt-5.3-chat(56%)、ERNIE-5.0(56%)等选手,与 Qwen3.5-122B-A10B、Doubao-Seed-2.0-lite 同处 58% 梯队。gpt-5.4-Mini 是 OpenAI 3 月 17 日发布的高效小模型,速度是上代 gpt-5 Mini 的 2 倍以上,在 SWE-Bench Pro 等编码基准上接近旗舰 gpt-5.4。

文章图片
#人工智能
OpenAI GPT-5.4 Nano实测

OpenAI在发布GPT-5.4 Mini的同时,还推出了产品线中体量最小、成本最低的GPT-5.4 Nano。官方对这款模型的定位非常明确:它是GPT-5.4家族中最小、最便宜的版本,专为速度和成本优先的场景而生,推荐用于分类、数据提取、排序以及处理简单辅助任务的编码子智能体。在OpenAI设想的多模型协作架构中,GPT-5.4负责规划和最终判断,GPT-5.4 Mini执行中等复杂度子任务,而

#人工智能
小米 MiMo-V2-Omni 实测

MiMo-V2-Omni(68.6%,第30位)作为全模态旗舰居首,MiMo-V2-Flash-think-0204(68.2%,第32位)作为纯文本推理模型紧随其后,MiMo-V2-Pro(67.6%,第39位)提供均衡选择,MiMo-V2-Flash-think(62.0%,第80位)则覆盖轻量场景。从准确率来看,MiMo-V2-Omni与同档位模型基本持平,略高于MiMo-V2-Pro和GL

#人工智能
小米 MiMo-V2-Pro 实测

值得关注的是,开源阵营中不乏在中文综合能力上超越MiMo-V2-Pro的选手:qwen3.5-plus(74.6%,22.9元)、Qwen3.5-27B(72.4%,25元)、GLM-4.7(71.5%,52.5元)、Kimi-K2.5-Thinking(71.3%,77.1元)等开源模型均以相近甚至更低的成本实现了更高的准确率。- 向上看,qwen3-max-think-2026-01-23(7

#人工智能
OpenAI GPT-5.4 Mini实测

在排名相近的区间内,MiniMax-M2.7(67.7%,第35位)、qwen3-max-2026-01-23(67.6%,第37位)与gpt-5.4-mini-high接近。:相比上一代gpt-5-mini-high(61.3%,排名第86位),gpt-5.4-mini-high(67.5%,排名第38位)提升了6.2个百分点,排名前进了48位。在OSWorld-Verified上,GPT-5.

大模型表格识别能力实测

在「不同年代使用最多的10个名字」表中,问题更为严重:原表「2010-2019年」列下有「男」「女」两个子列,模型直接**将单元格内容「男」「女」错误地整合到了表头行中**,导致整列数据结构严重错乱,行列对应关系全面崩塌。对于表格识别这类以「感知精度」为核心的任务,更多的推理步骤并不总能带来更好的结果。在华为昇腾芯片产能表中,原表最后一列的列名是具体的新闻描述内容,但模型自作主张地将其替换为「相关

#人工智能
大模型表格识别能力实测

在「不同年代使用最多的10个名字」表中,问题更为严重:原表「2010-2019年」列下有「男」「女」两个子列,模型直接**将单元格内容「男」「女」错误地整合到了表头行中**,导致整列数据结构严重错乱,行列对应关系全面崩塌。对于表格识别这类以「感知精度」为核心的任务,更多的推理步骤并不总能带来更好的结果。在华为昇腾芯片产能表中,原表最后一列的列名是具体的新闻描述内容,但模型自作主张地将其替换为「相关

#人工智能
    共 40 条
  • 1
  • 2
  • 3
  • 4
  • 请选择