2025云栖大会，阿里亮出王牌，万亿参数和全模态大模型齐发，我直接好家伙！

阿里不愧为原神

苍何fly

869人浏览 · 2025-09-28 10:34:09

苍何fly · 2025-09-28 10:34:09 发布

这是苍何的第 436 篇原创！

大家好，我是苍何。

还是做博主好，有机会能来阿里云栖大会。

要知道，以前我只能一边搬砖一边云参展。

更别提，还能受邀参与直播探展了。

逛完展，给我最大的感受是震撼，今年能明显感觉到越来越多的 Agent 和 AI 应用出来了。

这个机器人做的拉花咖啡很有意思，自拍后通过阿里云函数计算，调用Qwen-Image 生成卡通形象，然后给机器人做拉花咖啡。

这么多的应用底层都离不开大模型的加持，这次逛展发现，阿里又发布了不少新东西。

千问 3 家族又迎来了不少新成员，先给大家介绍下：

1、Qwen3 Max：拥有超万亿参数，是目前为止通义千问家族中最大、最强的模型，在多项主流权威基准测试中展现出全球领先的性能；

2、Qwen3-Omni：这是首个原生端到端全模态开源大模型，将文本、图像、音频和视频统一在一个模型中，无需权衡模态，能够无缝处理文本、图像、音频和视频等多种输入形式。

3、Qwen3-Next：该模型拥有 800 亿参数仅激活 30 亿，性能就可媲美千问 3 旗舰版 235B 模型，实现了模型计算效率的重大突破。

4、Qwen3-VL：这是 Qwen 系列迄今为止最强大的视觉理解模型，它能操作电脑和手机界面，识别 GUI 元素、理解按钮功能、调用工具、执行任务，目前已开源。

5、Qwen3-Coder-Plus：这是代码模型 Qwen 3-Coder 的一次升级，增强了终端任务功能，并提高了 Terminal Bench 的性能，推理速度更快，token 消耗更少，同时代码安全性上也有增强。

除了千问，阿里还发布了通义万相 Wan2.5-preview系列模型，涵盖文生视频、图生视频、文生图和图像编辑四大模型。

麻了，这次云栖大会，阿里连着发模型，把人看傻了。

不过，作为一名合格的野生 AI 博主，我还是想亲自尝试这些新的模型。

下面开始吧，文章有些长，建议先点赞收藏。

Qwen 3 Max

Qwen 3 Max 是目前最强的通义大模型，拥有超万亿的参数。其中 Qwen 3 Max 包括 instruct 和 Thinking 两款。

其中 Instruct 模型的智力和能力水平接近 Claude 4 Opus 以及 GPT-5。

Thinking 模型具备很强的深度推理能力，在国际主流评测指标上全球领先。

现在 chat.qwen.ai 上就可以直接使用了。

先来个六边形重力小球实验，看看出来的效果：

我们和以前的 Qwen 2.5 Max 做下对比。

Qwen 2.5 Max 就有些抽象了，压根都出不来😂。

一个模型的实用性最终还是要落地到 coding 和 Agent 能力，下面我们再是一个 breakout游戏的 case。

Claude 4 效果如下：

可以看到 Claude 4 生成的游戏中间缺失元素了直接。Qwen 3 Max 可玩性上更有优势。

这个是我用 Qwen 3 Max 做的复古打印机，效果也很赞。

然后看下 Qwen 3 Max 的文风，我觉得相对上个版本，还是有了很大的增强，特别是在风格仿写上。

Wan 2.5-preview

今天在现场，最为炸裂的当属万相的 Wan 2.5-preview，终于也能像 VEO 3 一样生成带声音的视频了。

后排的小姐姐，激动的连说了好几句卧槽。

wxv_4179404158480367625

目前可以在夸克造点和万相平台上体验：

1、夸克造点
https://zaodian.quark.cn/r/ai-studio-pc/main/gen-video?click=ai_video
2、万相平台
https://tongyi.aliyun.com/wan/generate/video/text-to-video?model=wan2.5

其中，要想视频能生成声音，需要手动开启一下这个音效设置：

看了下，感觉整体效果相当 nice，甚至在细节和画质上比 veo3 还要更好些。

wxv_4179396634754629649

wxv_4179397168588865543

wxv_4179395993126977540

以上视频分别来自X老哥：@Dork_sense、@higgsfield_ai、@PhotogenicWeekE

Qwen 3-VL

Qwen 3-VL 是 Qwen 系列迄今为止最强大的视觉语言模型！

旗舰型号 Qwen3-VL-235B-A22B 现已开源，并提供 Instruct 和 Thinking 两个版本：
✅ Instruct 在关键视觉基准测试中的表现优于 Gemini 2.5 Pro
✅ Thinking 在多模态推理任务上实现了最佳 (SOTA) 性能

能力方面，我直接放官方的一张图，大家可以感受下。

测了这么多 VLM 模型，下面用几个经典的例子来拷打一下它的能力吧。

1、文字倒放：

prompt：卡片上都说了啥。

Qwen 3-VL 很快能正确识别，这里需要做的第一步是要将文字旋转摆正后再 OCR 识别。

2、数车子

prompt：帮我数下一共有多少台玩具车？

回答正确！

3、网页复刻

prompt：帮我复刻一下这个网站

这个 case 失败了：

Qwen 3-Omni

这是首个原生端到端全模态大模型，能将文本、图像、音频和视频统一在一个模型中，无需权衡模态！

也就是一个模型就支持文本和多模态能力，可以说是一个超级大脑了，也更贴近真人。

目前已经开源了 Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner。

同时在22/36 音频和 AV 基准测试中 SOTA

目前也可以使用 Qwen Chat 上的语音聊天和视频聊天功能来体验 Qwen3-Omni 模型。

Qwen 3-Next

从名字上来看，这是下一代模型的全新标准。

Qwen 3-Next 主要实现了模型计算效率的重大突破，总参数80B仅激活 3B，性能就可足以媲美千问3旗舰版235B模型。

而且 Qwen 3-Next 的训练成本更低，长文本推理吞吐量更高了。

Qwen 3-Coder-Plus

Qwen 3-Coder 刚出来的时候，苍何也第一时间做了评测，具体可看：对标Claude Code，阿里发布最强开源模型Qwen3-Coder（附教程）

这次云栖大会上发布的主要是对 Qwen 3-Coder 的升级。

主要在推理速度和同时执行任务的效率上更高，代码安全性也更好。

这里的具体实测，就需要花费更长时间了，不过可以持续关注苍何，到时给大家带来使用上的体验。

好了，今天的内容就到这里了。

讲真的，逛完一天，我人是麻的。

技术的迭代速度，已经不是按年来算了，而是按天，甚至是按小时。我们以为的未来，可能在 AI 眼里，只是个开场白。

但焦虑归焦虑，兴奋也是真的。

这个时代，最怕的就是站在原地，一成不变。

我们无法预测未来，但可以创造未来。

与其被浪潮拍在沙滩上，不如学着怎么去冲浪。

与各位共勉。

好了，今天就聊到这，如果对你有帮助，希望可以点赞、在看、分享。

北京朝阳AI社区

更多推荐

基于非完整约束RRT算法与混合控制协议的充满障碍物环境中分散式非完整约束系统的避碰控制器研究（Matlab代码实现）

本文提出一种结合非完整约束RRT算法与混合控制协议的分散式避碰控制框架，针对充满障碍物的复杂环境，解决非完整约束系统（如无人机、移动机器人）的实时避障与路径规划问题。通过引入独轮车模型简化非完整约束，利用RRT算法的随机探索能力生成可行路径，结合混合控制协议实现多智能体分散式协调，最终通过仿真验证算法在动态障碍物环境下的有效性与实时性。

北京朝阳AI社区

JAVA开源框架推荐

Spring Boot内嵌Tomcat、Jetty或Undertow服务器，无需部署WAR文件，支持通过属性文件进行外部化配置，并提供了丰富的健康检查、指标监控和外部化配置功能。Gradle则使用基于Groovy的DSL，提供了更灵活的自定义构建逻辑能力，构建速度通常更快。人工智能与机器学习的集成也将成为框架发展的新方向，为开发者提供更智能的开发体验和更强大的应用能力。特别是在微服务架构和云原生应