文章目录

9月1日

美团开源首个大模型 Longcat-Flash-Chat

  • 美团发布了首个开源大模型 Longchat-Flash-Chat,具有亮眼的成绩。
  • 在部分基准测试集上,其 Agent 工具调用、指令遵循的能力超过了 DeepSeek-V3.1Qwen3-MoE-2507,甚至比闭源的 Claude-4-Sonnet 还要强大。在编程基准测试集 TerminalBench 上,其与公认的编程之王 Claude-4-Sonnet 不相上下。
  • 另外,无论是从总参数量还是激活参数上,Longcat-Flash-Chat 都比 DeepSeek-V3.1Kimi-K2 更少。

9月6日

Qwen3-Max-Preview 发布【重要】

  • 今天,阿里发布其迄今为止最大的模型 Qwen3-Max-Preview,这是阿里迄今为止最大的模型,比前一代 Qwen3(235B)多了四倍。该模型是一款非思考多模态大模型。
  • 根据官方介绍,新版本的 Qwen 模型在中英文理解、复杂指令遵循、工具调用等维度实现了显著增强,同时大幅减少了知识幻觉,让模型更加智能和可靠。
  • 官方评测显示,Qwen3-Max-Preiview 显著超越了自家前一代最强模型 Qwen3,还击败了包括 Claude-Opus-4 在内的国外模型。
  • 目前,用户可以通过 Qwen Chat 网页、通义 APP 和阿里云 API 体验最新的模型。在阿里云百炼平台上,模型将根据输入的 Token 数量进行阶梯式计费。但是,官方并未正式宣布开源这款模型。

字节发布机器人统一模型 Robix【重要】

  • 字节跳动新发布了一款机器人统一模型 Robix,该模型可以让一个模型同时完成推理、任务规划和自然语言交互。
  • Robix 分为三阶段进行训练,这三个阶段分别是预训练、监督微调和强化学习。在预训练阶段,通过大量机器人相关数据,教会模型看懂 3D 空间、把语言和画面对应,学会判断任务进度;在监督微调阶段,模拟收拾餐桌、超市购物等真实场景,教会它处理各种指令、按照逻辑一步步想问题;在强化学习阶段,用专门的算法纠正想的和做的不一样的问题。

9月8日

字节跳动推出最强图像生成模型 Seedream-4.0【重要】

  • 近日,字节跳动开始内测最新的豆包图像生成模型 Seedream-4.0。与此前的版本相比,新模型首次支持多模态生成图像,同一个模型可以实现文生图、图像编辑、组图生成,并且在核心能力上得到了显著提升。
  • Seedream-4.0 的主体一致性得到了显著增强,并且支持多图灵活创作以及超高清超高速的输出。实测结果表明,和 Nano Banana 相比,Nano Banana 在多图融合中主体一致性更稳定,而 Seedream 4.0 则在美感、清晰度和中文排版方面的表现更加突出,尤其是在多语言环境和高精度任务上优势明显。
  • Seedream-4.0 支持原生 4K 分辨率,同时支持一次性提供十张参考图像。另外,模型还具备超强的知识和推理能力。最后,该模型的中文文字渲染能力也完全碾压 GPT-4oGemini-2.5-Flash 模型。
  • 目前,Seedream-4.0 已经在 Artificial Analysis 平台上取得了文生图和图像编辑两大榜单的第一名。

9月9日

百度发布 ERNIE-X1.1 深度思考模型

  • 今天,百度发布了文心大模型 X1.1 深度思考模型,该模型是四月份发布的旗舰模型 X1 的升级版。升级后的模型主打事实性、指令遵循以及智能体和工具调用能力,带来了综合能力的显著提升。
  • 相较于上一代的 X1 模型,X1.1 模型的事实性提升了 34.8%,指令遵循提升了 12.5%,智能体提升了 9.6%。这意味着,该模型在提供信息时更加可靠,执行任务更加精准,处理复杂任务时灵活调度外部工具和系统资源。在多个权威基准上,该模型在中文问答、幻觉和多步任务等方面实现领先,整体效果优于 DeepSeek-R1-0528,并与 GPT-5Gemini-2.5-Pro 等国际顶尖模型不相上下。
  • ERNIE-X1.1 模型现在已经上线,所有人都可以免费体验。

Vidu Q1 推出参考生图功能

  • Nano Banana 的爆火到 Seedream-4.0 的发布,一直专注于视频大模型的 Vidu Q1 也按耐不住推出了参考生图功能,最多支持 7 张图像参考。
  • 体验地址为:https://www.vidu.cn/create/reference2image

9月10日

英伟达新一代 GPU(Rubin CPX)发布

  • 在周二的 AI 基础设施峰会上,英伟达宣布推出一款名为 Rubin CPX 的全新 GPU,专为超过 100万 token 的长上下文推理而设计。对用户而言,他们可以在软件开发、视频生成等长上下文任务中获得更好的性能。
  • 这款 Rubin CPX 将与 NVIDIA Vera CPURubin GPU 搭配使用,共同组成全新的 NVIDIA Vera Rubin NVL144 CPX 平台。
  • NVIDIA Rubin CPX 预计将于 2026 年年底上市。

9月12日

阿里发布全新 MoE 架构模型 Qwen3-Next

  • 今天凌晨,阿里通义团队正式发布并开源了下一代基础模型 Qwen3-Next。该模型的总参数量为 80B,激活参数仅 3B,性能就可以媲美 Qwen3 旗舰版的 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,实现了模型计算效率的重大突破。
  • Qwen3-Next 针对大模型在上下文长度扩展和参数量扩展的未来趋势设计。通义团队表示,起模型结构相较于四月底推出的 Qwen3 的 MoE 模型新增了多种技术并进行了核心改进,包括混合注意力机制、高度稀疏 MoE 结构和一系列提升训练稳定性的优化等。
  • 目前,该模型已经在 qwen.ai 上线,并且已经在 HuggingFace 平台上开源。

腾讯发布最强开源生图模型 Hunyuan-Image-2.1

  • 腾讯最新开源了图像生成模型 Hunyuan-Image-2.1。该模型的生成的图像分辨率达到了 2K,并且还可以读懂千字长文本,并实现中英文混搭渲染。
  • Hunyuan-Image-2.1 在技术上全面升级,显著提升了图文语义一致性和跨场景泛化能力,还可以进行精细场景控制、角色姿态甚至多物体描述,目前已经成为了开源生图模型中的 SOTA。
  • 模型开源后,在 HuggingFace 趋势榜上一路飙升,目前已经获得了第一名。

9月16日

OpenAI 发布 GPT-5-Codex

  • 今天凌晨,OpenAI 发布了 GPT-5-Codex,这是针对智能体编程任务专门优化后的 GPT-5
  • 根据介绍,该模型的训练重点是真实的软件工程任务。它既可以在短时间的交互式会话中快速响应,也可以独立完成复杂冗长的任务。它的代码审查能力可以在代码上线前发现关键漏洞。
  • GPT-5-Codex 目前已经在 Codex 的所有使用场景中上线,包括 Codex CLI、IDE 扩展、网页端、移动设备以及 Github 中的代码审查。它是云端任务和代码审查的默认模型,开发者也可以通过 Codex CLI 或 IDE 插件,在本地任务中选择使用它。另外,Codex 已经包含在 ChatGPT 的 Plus、Pro、Business、Edu 和 Enterprise 订阅中。

9月17日

李飞飞团队发布 Marble 世界模型

  • 今天,李飞飞教授的创业公司 World Labs 发布了新成果,限量开放的测试预览版空间智能模型 Marble。该模型号称只需要一张图片即可生成持久存在的 3D 世界,并且比以往更加宏大和震撼。
  • 无论输入的是一张图片还是一段文字提示,Marble 都能生成一个 3D 世界,供用户无限制地进行探索:没有时间限制、没有形变、没有不一致性。
  • 目前,用户可以加入候补名单,访问 Marble 的预览版。

9月18日

阿里发布 SOTA 级深度研究模型 通义DeepResearch【重要】

  • 昨天,阿里旗下的首个深度研究智能体——通义DeepResearch 正式开源。在多项权威基准上,该模型都取得了 SOTA 的成绩,而模型的参数仅仅为 30B(激活参数为 3B)。
  • 通义DeepResearch 可以把宏大的用户问题精巧地拆分为一系列逻辑清晰的子任务;随后,它会为每个环节自主调用代码分析、论文检索和网页访问等工具,以层层递进、自主循环的方式完成整个研究链路。
  • 在“人类最后的考试”中,通义DeepResearch 取得了 32.9% 的好成绩,超越了 DeepSeek-V3.1(29.8%)和 OpenAI DeepResearch(26.6%),霸榜全球第一。而在 OpenAI 提出的超高难度 BrowseComp 榜单上,通义DeepResearch 也以 43.3% 的准确率领跑开源榜单。
  • 目前,该模型、框架和方案都全面开源,开发者可以在 HuggingFace 和 Github 上进行下载。截止目前,该项目在 Github 上已经获得了超过 7200 个 Star。

9月21日

Grok-4-Fast 正式上线【重要】

  • 今天,Grok-4-Fast 正式上线。该模型首次将推理模式和非推理模式合二为一,支持 2M 上下文,并且直接刷爆了性价比的 SOTA。
  • 基准测试中,Grok-4-Fast 完全超越了上一代的 Grok-3-Mini (High),尤其是数学和编程能力得到了显著提升。在扩展版的基准测试集 NYT Connections Benchmark 上,该模型直接登顶,而 Grok-4 则排名第二。另一方面,Grok-4-Fast-Reasoning 不仅击败了 Grok-4,也将 GPT-5o3-proGemini-2.5-ProDeepSeek-V3.1Qwen3 等模型逐一击败。
  • 由于采用了大规模强化学习技术,Grok-4-Fast 的智能密度达到当前极致。实测表明,Grok-4-Fast 的性能直逼 Grok-4,但是平均节省了 40% 的推理 token 消耗,成本降低了 98%。另外,该模型只用了大约二十五分之一的成本就实现了和 Gemini-2.5-Pro 同级别的性能。
  • 官方技术博客中还提到,Grok-4-Fast 具有最强的网页和 X 平台搜索能力。

9月22日

DeepSeek-V3.1-Terminus 正式发布

  • 刚刚,深度求索发布了新模型 DeepSeek-V3.1-Terminus。该模型基于 DeepSeek-V3.1 完成,并实现了两项重大改进。在语言一致性上,缓解了中英文混杂以及出现异常字符的情况;在智能体能力上,进一步优化了编程和搜索的表现。
  • 在基准性能上,DeepSeek-V3.1-TerminusDeepSeek-V3.1 只能说整体略有升级,甚至在一些基准上还略有下降。但是,在“人类最后的考试”上,Terminus 进步较为明显,从 15.9 提升到了 21.7,仅次于 Grok-4(25.4)和 GPT-5(25.3),超越了 Gemini-2.5-Pro(21.6)。
  • 目前,DeepSeek-V3.1-Terminus 已经在官网、APP 和 API 上线。同时,在 HuggingFace 和魔搭社区也已经发布更新后的模型。

9月24日

最强开源模型 Qwen3-Max 正式版发布【重要】

  • 此前,阿里曾发布了 Qwen3-Max-Preview,当时该模型已经达到了全球第三,超越了 GPT-5Claude-Opus-4 等业内顶尖模型。今天上午,阿里云云栖大会上,Qwen3-Max 正式发布。
  • Qwen3-Max 的参数量超过一万亿,分为指令和推理两大版本。新模型在中英文理解、复杂指令遵循、模型工具调用能力和编程能力上都实现了突破,智力和情商都得到了大幅增强,同时大幅减少了模型幻觉,在更智能的同时也更加可靠。
  • 推理增强版本的 Qwen3-Max-Thinking-Heavy 可以实现结合工具的深度思考,深度推理能力实现了重大突破。该模型在 AIME25、HMMT 等数学能力评测中获得满分,在国内模型中属于首次。

高效率新一代基础模型架构 Qwen3-Next 发布

  • 通义探索下一代大模型前进方向的成果,千问下一代基础模型架构 Qwen3-Next 及其系列模型发布。该模型引入了混合注意力机制、高度稀疏的 MoE 架构以及多 Token 预测等核心技术,实现了性能和效率之间的更优平衡。
  • Qwen3-Next 模型的总参数仅有 80B,在仅激活 3B 参数的情况下性能即可媲美 Qwen3 旗舰版中 235B 的模型,实现了模型计算效率上的重大突破,模型训练成本相较于密集模型 Qwen3-32B 下降了 90%,长文本推理吞吐量提升十倍以上,为未来大模型的训练和推理效率树立了全新标准。

Qwen3-Coder 重磅升级

  • 全新的 Qwen3-Coder 结合了领先的编程系统 Qwen Code 和 Claude Code 进行联合训练,具有很强的代码生成和补全能力,并且具有更快的推理速度和更安全的代码生成。
  • 目前,Qwen3-Coder 已经完全开源,并且在开源社区内好评如潮。在知名 API 调用平台 OpenRouter 上的调用量激增 1474%,排名全球第二。

超强视觉理解模型 Qwen3-VL 发布【重要】

  • 在多模态领域,千问重磅发布了视觉理解模型 Qwen3-VL,这是 Qwen 系列迄今为止最强大的视觉语言模型。
  • Qwen3-VL 的核心模型 Qwen3-VL-235B-A22B 目前已经开源,并提供 Instruct 和 Thinking 两个版本。Instruct 在关键视觉基准测试中优于 Gemini-2.5-Pro,而 Thinking 则在多模态推理任务上实现了新的 SOTA 性能。
  • Qwen3-VL 具备了视觉智能、视觉编程和 3D 检测等能力。同时,它也可以自主进行手机和电脑界面的操作。此外,Qwen3-VL 还将上下文拓展至百万 token,可以理解超过两小时的视频。

最强全模态开源模型 Qwen3-Omni 发布【重要】

  • 此次,全模态模型 Qwen3-Omni 开源了三大版本,分别是 Qwen3-Omni-30B-A3B-InstructQwen3-Omni-30B-A3B-ThinkingQwen3-Omni-30B-A3B-Captioner
  • Qwen3-Omni 开源完全覆盖文本、图像、音频、视频等全模态输入,并实现实时流式响应和实时对话,甚至可以设置个性化角色,打造专属个人IP。
  • 目前,该模型在 36 项音视频领域的公开评测中获得了 32 项开源模型中的 SOTA,在音频识别、理解、对话能力上比肩 Gemini-2.5-Pro
  • 另外,Qwen3-Omni-30B-A3B-Captioner 为全球首次开源的通用音频 Caption 模型,可以清晰描述用户输入音频的特征,填补了开源社区的空白。

Qwen3-Image-Edit 发布

  • Qwen3-Image-Edit 也进行了版本更新,新模型支持多图编辑,同时单图一致性也得到了显著提升。

Wan2.5-Preview 系列模型发布

  • 通义万相是通义家族中的视觉基础模型,这一次发布会上 Wan2.5-Preview 的文生视频、图生视频、文生图和图像编辑四大模型均得到了发布。
  • Wan2.5-Preview 可以生成和画面匹配的人声、音效和背景音乐,首次实现了音画同步的视频生成能力,进一步降低了电影级视频创作的门槛。另外,模型视频生成的时长达到了10秒,支持24帧每秒的1080P高清视频生成,并进一步提升了指令遵循能力。
  • 此外,Wan2.5-Preview 还升级了图像生成能力,可以生成中英文文字和图标,支持图像编辑功能。

通义语音 Fun 系列大模型发布

  • 在本次云栖大会上,通义大模型家族的最新成员通义百聆 Fun 系列模型正式发布。该系列模型包括语音识别大模型 Fun-ASR 和语音合成大模型 Fun-CosyVoice
  • 根据介绍,Fun-ASR 由数千万小时的真实语音数据训练得到,具备强大的上下文理解能力和适用性;Fun-CosyVoice 则提供了上百种预置音色,可以应用于多个场景。

快手发布 Kling-2.5-Turbo【重要】

  • 昨天晚上,快手推出了 Kling-2.5-Turbo 模型,同时更新了文生视频、图生视频两大功能。
  • 根据官方介绍,新模型的效果提升主要集中于文本响应、动态效果、风格保持、美学效果等维度。
  • 在高品质(1080P)模式下,Kling-2.5-Turbo 生成 5 秒长度的视频仅需要花费 25 灵感值,相较于 Kling-2.1 模型同档位便宜了接近 30%,具有更高的性价比。
  • 目前,该模型已经在可灵官网网页端可用。

9月25日

Meta 发布首个代码世界模型

  • Meta 发布重组 AI 部门后的首个重磅研究,是一个用于写代码的世界模型。和传统的 LLM 不同,其思路为:在推理代码时隐式地模拟其部分执行过程。
  • 该模型的参数为 32B,并且开放权重,是一个稠密的、仅解码器架构的 LLM,支持最长 131k tokens 的上下文长度。独立于其世界模型能力,该模型在通用编程和数学任务上也展现出了强大的性能。

生数科技发布图生视频模型 Vidu Q2

  • 今天,生数科技发布了新一代图生视频大模型 Vidu Q2。该模型打破了原有 AI 生成视频表情太假、动作飘忽不定、运动幅度不够大等行业问题,实现了从“视频生成”走向“演技生成”,从“动态流畅”到“情感表达”的革命性跨越。
  • Vidu Q2 的生成模式分为闪电模式和电影大片模式。在闪电模式下,20秒即可生成5秒的 1080P 的视频片段,满足用户极速出片的要求;电影大片模式则主要满足对于复杂表演、运镜有更高要求的用户。
  • 另外,此前 AI 视频产品都是以 5 秒时长居多,具有一定的局限性。但是,Vidu Q2 首次推出 2-8 秒时长随便选,满足创作者不同场景的叙事需求。
  • 目前,Vidu Q2 的图生视频功能已经同步在 Web 端、APP 端以及 API 上线。

9月26日

ChatGPT Pulse 上线【重要】

  • 今天,OpenAI 推出了 ChatGPT Pulse,这项功能使得 AI 在夜间会结合用户近期的聊天记录等信息持续思考用户的兴趣、关联数据,并在每天早上据此主动为用户生成定制的内容,就像是一位能干的私人助理。
  • OpenAI 认为这样的工作方式将让 AI 由完全被动反应变为显著主动,并且极其个性化。
  • 目前,该功能的早期版本仅向 Pro 订阅用户开放,之后计划让 Plus 订阅用户也可以使用。

9月29日

高性价比模型 DeepSeek-V3.2-Exp 上线【重要】

  • 刚刚,DeepSeek 最新的实验性模型 DeepSeek-V3.2-Exp 上线。该模型主要基于 DeepSeek-V3.1-Terminus 训练而来,并且首次引入 DeepSeek 稀疏注意力机制(DSA),在长上下文上实现更快、更高效的训练和推理。
  • DeepSeek-V3.1-Terminus 相比,该模型无论是在长文本任务还是短文本任务上的性能都没有实质性的下降,但是在实际部署的推理成本测试中,其端到端的加速效果和成本节约效果非常显著。这为之后的模型提供了一条“性能不降,成本骤减”的新工程途径。
  • 得益于模型服务成本的大幅降低,官方 API 的价格将降低 50% 以上,且该模型目前已经支持 API 访问。

文档解析大模型 MinerU-2.5 发布【重要】

  • 今天,上海人工智能实验室发布了新一代文档解析大模型 MinerU-2.5。该模型以仅有 1.2B 的参数规模,就在 OmniDocBench、olmOCR-bench、Ocean-OCR 等测试集上全面超越了 Gemini-2.5-ProGPT-4oQwen2.5-VL-72B 等主流通用大模型,以及 dots.ocr、MonkeyOCR 等专业文档解析工具,在整体解析能力和单元素解析能力上都取得全面第一。
  • 另外,人工评价结果显示,MinerU-2.5 在解析精度和用户体验上都获得了显著提升,在布局检测、表格识别、公式识别、文本识别等关键任务上取得全面突破。
  • 在解析效率方面,MinerU-2.5 采用了 QwenVL2 系列的原生分辨率视觉编码器结合 0.5B 的语言编码,配合 vLLM 参数优化和工程优化,在消费级显卡4090(48G)上达到了每秒 1.7 页,元朝其他大模型解析方案,让高质量、低成本的解析成为现实。
  • 凭借着高精度、多模态的文档理解与结构化输出能力,MinerU-2.5 尤其适合构建 RAG 知识库以及大规模文档内容提取等实际应用场景。
  • 该产品的在线使用地址:https://mineru.net/OpenSourceTools/Extractor

9月30日

Claude-Sonnet-4.5 发布【重要】

  • 今天深夜,Anthropic 重磅发布了新一代模型 Claude-Sonnet-4.5,自称为世界上最好的编程模型,其自主编码时长可以达到三十多个小时。
  • Claude-Sonnet-4.5 在基准测试中基本上全面超过了 Claude-Opus-4.1,并且在 SWE-bench 上取得了 SOTA。另外,Claude 还宣称其为构建复杂智能体的最强模型,也是使用计算机的最佳模型,在推理和数学方面显示出巨大的进步。
  • Anthropic 还表示,Claude-4.5-Sonnet 是目前与人类价值观一致性最高的前沿模型,谄媚、七篇、争夺自主权和鼓励妄想性思维等现象将大幅减少。
  • 目前,该模型已经全面上线,支持进行 API 调用,且价格和 Claude-Sonnet-4 一致,为 3美元 / 1M 输入 tokens 和 15美元 / 1M 输出 tokens。

GLM-4.6 正式发布【重要】

  • 今天,智谱 AI 正式发布并开源了旗下新一代旗舰模型 GLM-4.6,该模型即将上线 HuggingFace、ModelScope 等社区,并且遵循 MIT 协议。
  • GLM-4.6 模型在多个方面实现了提升。在高级编码能力上,在公开基准与真实编程任务中,GLM-4.6 代码能力对齐 Claude-Sonnet-4,是国内已知最好的编程模型;在上下文长度上,上下文窗口由 128K 增加到 200K,适合复杂的编码和智能体任务;在推理能力上,得到了提升并且支持在推理的过程中进行工具调用;在智能体框架中,增强了模型的工具调用和搜索能力,具有更好的表现;在写作上,文风、可读性和角色扮演场景都更加符合人类偏好。
  • 根据智谱报告,GLM-4.6 在多个基准测试集上的性能获得了显著提升,并且超过了 Claude-Sonnet-4Claude-Sonnet-4.5,位居国产模型首位。另外,在平均 token 消耗上,GLM-4.6GLM-4.5 下降了 30% 以上,为同类模型中最低;其编程 API 价格也只是 Claude 的七分之一,性能更好且速度更快。
  • 目前,GLM-4.6 也已经上线了 z.ai 等平台可供用户使用。

最强开源生图模型 HunyuanImage-3.0 发布【重要】

  • 腾讯会员最新发布并开源了原生多模态生图模型 HunyuanImage-3.0,该模型参数高达 80B,是目前参数量最大的开源生图模型。
  • HunyuanImage-3.0 将图像理解和生成一体化融合,也是首个开源工业级原生多模态生图模型,效果对标界内头部闭源模型。在基准测试集上,HunyuanImage-3.0 的平均图像准确率和全局准确性都媲美业界领先的模型;在人工评测中,其相较于 Seedream-4.0 的胜率为 1.17%,相较于 Nano Banana 的胜率为 2.64%,相较于 GPT-Image 的胜率为 5.00%,相较于上一代模型 HunyuanImage-2.1 的胜率为 14.10%。
  • 在效果上,该模型支持多分辨率的图像生成,具有强大的指令遵循、世界知识推理、文字渲染能力,出图具有极致的美学和艺术感。另外,它还具有强大的文字渲染能力,通过对文字渲染数据的定向补充和借助 HunyuanOCR 进行文字识别的能力,HunyuanImage-3.0 实现了接近头部模型的文字渲染能力,让海报、表情包制作等变得更加简单。
  • 目前,该模型已经面向社区完全开源,代码和权重也全部放出。
Logo

更多推荐