这是苍何的第 436 篇原创!

大家好,我是苍何。

还是做博主好,有机会能来阿里云栖大会。

要知道,以前我只能一边搬砖一边云参展。

更别提,还能受邀参与直播探展了。

图片

逛完展,给我最大的感受是震撼,今年能明显感觉到越来越多的 Agent 和 AI 应用出来了。

图片

这个机器人做的拉花咖啡很有意思,自拍后通过阿里云函数计算,调用Qwen-Image 生成卡通形象,然后给机器人做拉花咖啡。

这么多的应用底层都离不开大模型的加持,这次逛展发现,阿里又发布了不少新东西。

图片

千问 3 家族又迎来了不少新成员,先给大家介绍下:

1、Qwen3 Max:拥有超万亿参数,是目前为止通义千问家族中最大、最强的模型,在多项主流权威基准测试中展现出全球领先的性能;

图片

2、Qwen3-Omni:这是首个原生端到端全模态开源大模型,将文本、图像、音频和视频统一在一个模型中,无需权衡模态,能够无缝处理文本、图像、音频和视频等多种输入形式。

图片

3、Qwen3-Next:该模型拥有 800 亿参数仅激活 30 亿,性能就可媲美千问 3 旗舰版 235B 模型,实现了模型计算效率的重大突破。

图片

4、Qwen3-VL:这是 Qwen 系列迄今为止最强大的视觉理解模型,它能操作电脑和手机界面,识别 GUI 元素、理解按钮功能、调用工具、执行任务,目前已开源。

图片

5、Qwen3-Coder-Plus:这是代码模型 Qwen 3-Coder 的一次升级,增强了终端任务功能,并提高了 Terminal Bench 的性能,推理速度更快,token 消耗更少,同时代码安全性上也有增强。

图片

除了千问,阿里还发布了通义万相 Wan2.5-preview系列模型,涵盖文生视频、图生视频、文生图和图像编辑四大模型。

麻了,这次云栖大会,阿里连着发模型,把人看傻了。

不过,作为一名合格的野生 AI 博主,我还是想亲自尝试这些新的模型。

下面开始吧,文章有些长,建议先点赞收藏。

Qwen 3 Max

图片

Qwen 3 Max 是目前最强的通义大模型,拥有超万亿的参数。其中 Qwen 3 Max 包括 instruct 和 Thinking 两款。

其中 Instruct 模型的智力和能力水平接近 Claude 4 Opus 以及 GPT-5。

Thinking 模型具备很强的深度推理能力,在国际主流评测指标上全球领先。

图片

现在 chat.qwen.ai 上就可以直接使用了。

图片

先来个六边形重力小球实验,看看出来的效果:

图片

我们和以前的 Qwen 2.5 Max 做下对比。

图片

Qwen 2.5 Max 就有些抽象了,压根都出不来😂。

一个模型的实用性最终还是要落地到 coding 和 Agent 能力,下面我们再是一个 breakout游戏的 case。

图片

Claude 4 效果如下:

图片

可以看到 Claude 4 生成的游戏中间缺失元素了直接。Qwen 3 Max 可玩性上更有优势。

这个是我用 Qwen 3 Max 做的复古打印机,效果也很赞。

图片

然后看下 Qwen 3 Max 的文风,我觉得相对上个版本,还是有了很大的增强,特别是在风格仿写上。

图片

Wan 2.5-preview

图片

今天在现场,最为炸裂的当属万相的 Wan 2.5-preview,终于也能像 VEO 3 一样生成带声音的视频了。

后排的小姐姐,激动的连说了好几句卧槽。

wxv_4179404158480367625

目前可以在夸克造点和万相平台上体验:

1、夸克造点
https://zaodian.quark.cn/r/ai-studio-pc/main/gen-video?click=ai_video
2、万相平台
https://tongyi.aliyun.com/wan/generate/video/text-to-video?model=wan2.5

图片

其中,要想视频能生成声音,需要手动开启一下这个音效设置:

图片

看了下,感觉整体效果相当 nice,甚至在细节和画质上比 veo3 还要更好些。

wxv_4179396634754629649

wxv_4179397168588865543

wxv_4179395993126977540

以上视频分别来自X老哥:@Dork_sense、@higgsfield_ai、@PhotogenicWeekE

Qwen 3-VL

图片

Qwen 3-VL 是 Qwen 系列迄今为止最强大的视觉语言模型!

旗舰型号 Qwen3-VL-235B-A22B 现已开源,并提供 Instruct 和 Thinking 两个版本:
 ✅ Instruct 在关键视觉基准测试中的表现优于 Gemini 2.5 Pro
 ✅ Thinking 在多模态推理任务上实现了最佳 (SOTA) 性能

图片

能力方面,我直接放官方的一张图,大家可以感受下。

图片

测了这么多 VLM 模型,下面用几个经典的例子来拷打一下它的能力吧。

1、文字倒放:

prompt:卡片上都说了啥。

图片

Qwen 3-VL 很快能正确识别,这里需要做的第一步是要将文字旋转摆正后再 OCR 识别。

图片

2、数车子

prompt:帮我数下一共有多少台玩具车?

图片

回答正确!

图片

3、网页复刻

prompt:帮我复刻一下这个网站

图片

这个 case 失败了:

图片

Qwen 3-Omni

图片

这是首个原生端到端全模态大模型,能将文本、图像、音频和视频统一在一个模型中,无需权衡模态!

也就是一个模型就支持文本和多模态能力,可以说是一个超级大脑了,也更贴近真人。

图片

目前已经开源了 Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner。

同时在22/36 音频和 AV 基准测试中 SOTA

图片

目前也可以使用 Qwen Chat 上的语音聊天和视频聊天功能来体验 Qwen3-Omni 模型。

图片

Qwen 3-Next

图片

从名字上来看,这是下一代模型的全新标准。

Qwen 3-Next 主要实现了模型计算效率的重大突破,总参数80B仅激活 3B,性能就可足以媲美千问3旗舰版235B模型。

而且 Qwen 3-Next 的训练成本更低,长文本推理吞吐量更高了。

Qwen 3-Coder-Plus

图片

Qwen 3-Coder 刚出来的时候,苍何也第一时间做了评测,具体可看:对标Claude Code,阿里发布最强开源模型Qwen3-Coder(附教程)

这次云栖大会上发布的主要是对 Qwen 3-Coder 的升级。

主要在推理速度和同时执行任务的效率上更高,代码安全性也更好。

这里的具体实测,就需要花费更长时间了,不过可以持续关注苍何,到时给大家带来使用上的体验。

好了,今天的内容就到这里了。

讲真的,逛完一天,我人是麻的。

 技术的迭代速度,已经不是按年来算了,而是按天,甚至是按小时。我们以为的未来,可能在 AI 眼里,只是个开场白。

但焦虑归焦虑,兴奋也是真的。

这个时代,最怕的就是站在原地,一成不变。

我们无法预测未来,但可以创造未来。

与其被浪潮拍在沙滩上,不如学着怎么去冲浪。

与各位共勉。

好了,今天就聊到这,如果对你有帮助,希望可以 点赞、在看、分享。

Logo

更多推荐