logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

字节豆包Seed 2.0 Lite实测

从追求极致性能的旗舰级 Doubao-Seed-2.0-pro(76.5%,22.5元),到主打高成本效率比的 Doubao-Seed-2.0-lite(73.9%,5.4元),再到更轻量级的 Doubao-Seed-2.0-mini(71.8%,7.0元),覆盖了不同算力预算与任务复杂度的用户群体。:在新一期的评测中,Doubao-Seed-2.0-lite 版本的总分相比doubao-seed

#人工智能
字节豆包Seed 2.0 Pro实测:新版本硬实力登顶

其 76.5% 的准确率稳居该档位榜首,与同档位的 MiniMax-M2.5(65.7%,26.3元)和 qwen3-max-2025-09-23(66.8%,23.4元)相比,准确率分别高出 10.8 和 9.7 个百分点。从旗舰级的 Seed-2.0-pro(76.5%),到平衡型的 Seed-2.0-lite(73.9%)和轻量级的 Seed-2.0-mini(71.8%),再到上一代的do

字节豆包Seed 2.0 Mini实测

相比同为新发布的gemini-3.1-pro-preview(74.8%,250.5元)和qwen3.5-plus(74.6%,22.9元),Doubao-Seed-2.0-mini在成本上具有明显优势,适合对成本敏感但仍需一定准确率的场景。:每千次调用的成本从15.6元降至7元,下降约55%。:Doubao-Seed-2.0-mini准确率为71.8%,略高于doubao-seed-1-6-th

#数据库#人工智能
新一代豆包推理大模型Doubao-Seed-1.6-think来了,能力全面突破!

2025年4月15日发布的 Doubao-1.5-thinking-pro 凭借长思维链和强化学习技术,在医疗、教育、金融等8大类别中展现了突出的推理性能。时隔两个月,其升级版 doubao-seed-1-6-thinking-250615 于6月15日正式推出,进一步优化了模型架构。

文章图片
阿里Qwen3.6-27B实测

阿里开源Qwen3.6-27B,主打智能体编程。编程能力提升6.7%,综合分略降;响应快80%,开源低成本,编程基准超越15倍前代旗舰。

文章图片
#人工智能
大模型OCR识别能力实测:结果出乎意料,第一名你绝对想不到……

针对中文OCR真实场景评测7类任务发现:Kimi K2.6以69.8%准确率居首,国产包揽Top5;GPT系列全面翻车且昂贵,高端GPT准确率不如低价国产模型;票据与竖排文本为共性短板。中文OCR选国产模型更准更省。

#人工智能
大模型表格识别能力实测:GPT-5.5、Kimi、通义千问,Mimo,谁在“睁眼说瞎话”?

多模态大模型新测表格识别:面对“复杂结构+水印干扰”,GPT-5.5、Qwen、Kimi等明星模型集体翻车。水印成“视力杀手”,标题与结构识别成短板,旗舰模型鲁棒性仍需提升。

OpenAI GPT-5.5实测

GPT-5.5震撼登场:准确率飙升、耗时狂砍38%、Token暴降30%!推理大涨5.5%,智能体编程再进化。速度碾压同级,但国产开源1/7成本紧咬不放——谁才是你的真命模型?

#人工智能
深度求索DeepSeek-V4-Pro实测

DeepSeek 这次没卷跑分,卷的是百万长上下文和 Agent。中文综合榜上的位次,有人会觉得意外,有人会觉得理所当然——但细分维度里藏着一次明确的路线切换。代价是什么?什么变强了,什么让位了?看完你来判断。

#人工智能
小米 MiMo-V2.5-Pro 实测

小米全新旗舰大模型重磅发布!官方号称迄今最强,直接对标全球顶尖水准。底层推理与代码能力迎来蜕变?详尽深度实测报告为你揭开真实性能底牌!赶紧点击查看,揭秘其实力究竟如何!

#人工智能
    共 56 条
  • 1
  • 2
  • 3
  • 6
  • 请选择