MIAOYUN | 每周AI新鲜事儿(09.19-09.26)
9月19日,蚂蚁集团百灵大模型正式开源「Ring-flash-2.0」模型,通过“棒冰(icepop)”算法成功解决了MoE LLM在Long-COT SFT冷启动后的强化学习(RL)训练稳定性挑战,在100B总参数、仅激活6.1B参数的架构配置下,不仅实现128K上下文200+token/s的极速推理,更在数学推理(AIME 86.98分)、代码生成(CodeForces ELO 90.23)等
本周AI领域迎来密集创新与发布,华为、阿里、蚂蚁、美团、字节、百度、DeepSeek、生数科技、智源等十余家公司相继发布新模型,聚焦于安全可靠、多模态理解与生成、及高效推理能力;AI工具与智能体日趋实用化,显著降低创作与任务自动化门槛;同时,算力基建、芯片性能与安全框架持续升级,共同推动AI技术迈向深度融合与产业落地新阶段,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
浙大携手华为发布「DeepSeek-R1-Safe」大模型,AI安全与性能完美平衡
9月19日消息,浙江大学联合华为计算产品线重磅推出「DeepSeek-R1-Safe」基础大模型。模型基于昇腾千卡集群,依托全流程自主可控后训练框架完成训练,整体安全防御能力提升至83%,较原模型越狱防御增幅115%,普通问题安全率近100%,且通用性能接近零损耗,实现了安全性与通用性能的有效均衡。
参考:新闻·计 | 计算机学院基础大模型成果在华为全联接大会发布,破解AI“安全与性能”难题
阿里发布通义万相「Wan2.2-Animate」开源模型
9月19日,阿里发布通义万相「Wan2.2-Animate」开源模型,支持通过一张角色图像和一段参考视频,将视频中的动作与表情精准迁移至图片角色,实现静态图像的动态化。该模型是业内首个专注于人物角色驱动的开源模型,通过采用统一的模型架构,将“图生动作"(Move)与“视频换人"(Mix)两种模式统一为一种共同的符号表示,实现了对动作和表情的精准控制。
参考:Wan2.2-Animate发布:上传一张图,复刻任何动作,主演任何视频!
蚂蚁集团百灵大模型正式开源「Ring-flash-2.0」模型
9月19日,蚂蚁集团百灵大模型正式开源「Ring-flash-2.0」模型,通过“棒冰(icepop)”算法成功解决了MoE LLM在Long-COT SFT冷启动后的强化学习(RL)训练稳定性挑战,在100B总参数、仅激活6.1B参数的架构配置下,不仅实现128K上下文200+token/s的极速推理,更在数学推理(AIME 86.98分)、代码生成(CodeForces ELO 90.23)等核心场景中表现媲美40B级Dense模型。
美团LongCat团队开源高效推理模型「LongCat-Flash-Thinking」
9月22日,美团LongCat团队开源高效推理模型「LongCat-Flash-Thinking」,在逻辑、数学、代码、智能体等多领域推理任务中达到全球开源模型的SOTA水平,是国内首个同时具备“深度思考+工具调用”与“形式化+非形式化”推理能力相结合的大语言模型。
参考:LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!
火山引擎发布全新通用翻译大模型「Doubao-Seed-Translation」
9月22日,字节跳动旗下火山引擎发布了全新通用翻译大模型「Doubao-Seed-Translation」(豆包翻译模型),支持28种语言互译,覆盖中、英、日、韩、德、法、西、俄等主流语种。该模型提供忠实、地道、流畅的译文,中英翻译效果逼近「Deepseek-R1」,通用多语言翻译效果超越或持平「GPT-4o / Gemini-2.5-Pro」。模型支持4K上下文、3K输出长度,并具备强大的场景适配力,可精准处理复杂语境,显著提升跨语言协作与文化理解效率,且价格竞争力强。
百度智能云千帆正式推出全新视觉理解模型「Qianfan-V」
9月22日,百度智能云千帆正式推出全新视觉理解模型「Qianfan-V」,提供3B、8B和70B三种规格,覆盖复杂图表理解、视觉推理、数学解题等多种场景,并支持OCR识别和教育垂类等场景。该系列模型由百度团队基于开源模型开发,在自研昆仑芯P800上完成全流程计算,支持单任务5000卡规模并行计算,具备思维链能力、OCR全场景识别和复杂版面文档理解能力,在多项基准测试中表现优异。
参考:Qianfan-VL系列模型重磅开源!全尺寸领域增强效果优异,全自研芯片计算!
DeepSeek发布「DeepSeek-V3.1-Terminus」版本
9月22日,DeepSeek发布「DeepSeek-V3.1-Terminus」版本,此次更新解决诸多问题,如缓解中英文混杂、偶发异常字符等,修复输出带「极」字的Bug 。在多项测评中胜过「Gemini 2.5 Pro」,Humanity's Last Exam成绩提升36.48%;Agent能力也有提升,但部分测评成绩有1%左右下降。
智元机器人正式开源通用具身基座大模型「GO-1」
9月23日,智元机器人正式开源其通用具身智能基座大模型「GO-1」(Genie Operator-1),成为全球首个采用Vision-Language-Latent-Action(ViLLA)架构的大模型。该模型深度融合视觉感知、语言理解与潜在动作空间建模能力,显著提升机器人在复杂环境中的任务理解与执行能力。
阿里云栖大会发布六款模型与一个全新品牌,重磅升级全栈AI体系
9月24日,在云栖大会上,阿里云发布六款新模型与一个全新品牌,在模型智能水平、Agent工具调用和Coding能力、深度推理、多模态等方面实现多项突破。包括万亿参数大模型「Qwen MAX」、新一代原生全模态大模型「Qwen3-Omni」等。
-
Qwen MAX:万亿参数大模型,Coding 与工具调用能力登顶国际榜单;
-
Qwen3-Omni:新一代原生全模态大模型,真正实现“全模态不降智”;
-
Qwen3-VL:Agent和Coding能力全面提升,真正“看懂、理解并响应世界”;
-
Qwen-Image:再升级!真正实现“改字不崩脸、换装不走样”;
-
Qwen3-Coder:256K上下文修复项目,TerminalBench分数大幅提升;
-
Wan2.5-Preview:音画同步视频生成,图像支持科学图表与艺术字;
-
通义百聆:企业级语音基座大模型,攻克企业落地语音模型的“最后一公里”。
其中,「Qwen3-Omni」能无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出,在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA。
快手可灵AI推出「可灵2.5 Turbo」视频生成模型
9月24日,快手可灵AI基座模型再升级,推出「可灵2.5 Turbo」视频生成模型,同时更新文生视频、图生视频两大功能。本次效果提升主要集中在文本响应、动态效果、风格保持、美学效果等维度;一方面是可以用简单(且比较抽象)的文案,生成相应的视频片段;另一方面是对包含复杂因果关系和时间序列的提示词理解能力有了提升。高品质模式(1080p)下生成5秒视频仅需25灵感值,比2.1模型便宜近30%,更有性价比。
参考:可灵2.5 Turbo太凶残:30%成本暴降+效果飞跃,生成体操动作可去参赛
Meta开源首款代码世界模型「Code World Model」
9月25日,Meta发布首款代码世界模型「Code World Model」(CWM),是全球首个将世界模型系统性引入代码生成任务的LLM,参数量达32B。它不仅能生成代码,还能模拟代码执行过程,预测变量状态变化和环境反馈,从而更深入地理解代码逻辑。
参考:刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了
生数科技正式发布新一代图生视频大模型「Vidu Q2」
9月25日,生数科技正式发布新一代图生视频大模型「Vidu Q2」。新模型以“Vidu Q2看AI演戏”为主题,“细微表情生成”为核心提升场景,在极致表情变化、推拉运镜、生成速度及语义理解方面取得突破性进展,实现从“生成视频”到“生成演技”,从“动态流畅”到“情感表达”的跨越,能精准表现复杂细微表情和武打动作场景。
参考:生数科技全球发布Vidu Q2,推动“视频生成”走向“演技生成”时代
智源发布全球首个原生全双工语音大模型「RoboBrain-Audio」
9月25日,北京智源人工智能研究院联合Spin Matrix与新加坡南洋理工大学发布「RoboBrain-Audio」(FLM-Audio),全球首个支持 “自然独白 + 双训练范式” 原生全双工语音大模型,实现“边听边说”的自然交互,响应延迟降低至80ms级别。
参考:具身智能从此「边听边说」,智源研究院开源原生全双工语音大模型RoboBrain-Audio
AI 工具
腾讯AI工作台ima推出新版本,上线鸿蒙电脑版、AI播客生成更快
9月23日,腾讯旗下以知识库为核心的AI工作台ima推出新版本,正式上线鸿蒙电脑版,至此实现鸿蒙系统手机、平板和电脑三端全覆盖,用户可在多设备间实现协同工作。同时,AI播客生成功能全面升级,采用分段生成技术支持“边生成边播放”,减少等待时间,提升用户体验。
夸克发布全新AI图像与视频创作平台「造点AI」
9月24日,阿里巴巴旗下AI应用夸克发布全新AI图像与视频创作平台「造点AI」,集成图片生成(Midjourney V7、夸克图片1.0)与视频生成(通义万相Wan2.5)双核心功能,成为国内首个支持音画同步视频生成的一站式AI视频创作工具。用户可通过文本或图像输入,生成10秒、1080P、24帧/秒的高清视频,系统能自动匹配人声、背景音乐与音效,画面运镜控制精准,满足电影级创作需求。尤其在中文语境下,对亚洲人像、国风元素及中文字体生成表现优异,广泛适用于电商、影视、游戏等领域。
AI音乐平台Suno迎来更新,发布全新「V5」模型
9月25日,AI音乐平台Suno发布全新「V5」模型,只需一段文字描述,就能生成具备商业级品质的完整歌曲,是“迄今为止最强大的音乐基础模型”。模型提供录音室级别音质,媲美专业混音成品,实现更精细的风格控制和更高的完成度,从灵感Demo直接跨越到可发行歌曲质量。
参考:Suno V5重塑音乐版图:AI作曲迈入专业制作时代!
NVIDIA宣布开源生成式AI面部动画模型「Audio2Face」
9月25日,NVIDIA宣布开源生成式AI面部动画模型「Audio2Face」,此次开源内容不仅包含模型本身,还涵盖软件开发工具包(SDK)及完整训练框架。该模型能通过输入语音音频,自动解析音素、语调与情感特征,实时生成高精度面部绑定动画,实现唇形同步、眼神变化与情绪表达一体化输出。支持离线渲染与流式处理两种模式,并提供Unreal Engine 5.5+和Autodesk Maya专用插件,便于集成至现有生产管线,赋能游戏、影视与虚拟交互领域。
OpenAI官宣推出「ChatGPT Pulse」,变被动为主动
9月26日,OpenAI正式为Pro用户推出「ChatGPT Pulse」预览版,它改变了LLM的交互方式,从被动接受问题并回答,到主动发现问题并给出建议,简单说就是“AI版私人助理+个性化资讯流”。从信息“拉取”到服务“推送”,传统的「ChatGPT」像一个问答机器,你问一句它答一句,全程需要你来主导;而「Pulse」更像一个顶级的私人助理,它会根据你的聊天记录和反馈来研究预判你的需求,并主动把整理好的报告放在你的办公桌上。
参考:刚刚,ChatGPT 又更新了,奥特曼:这是我最喜欢的功能
AI Agent
无问芯穹推出基础设施智能体蜂群,打造新一代Agentic Infra
9月23日,无问芯穹推出基础设施智能体蜂群,通过多智能体协同架构覆盖模型筛选、资源运营、排障和集群运维等多个模块,实现基础设施全生命周期智能管理,打造新一代Agentic Infra。该解决方案彻底改变传统IaaS→PaaS→MaaS→Agent应用间层层堆叠的生产模式,以智能体为自治核心构建高度协同系统,显著提升资源利用率和运维效率。
参考:首次公开!无问芯穹推出基础设施智能体蜂群,打造新一代Agentic Infra,重构智能体生产新范式
秘塔AI推出全新「Agentic Search」模式
9月23日,秘塔AI推出全新“边想边搜,边搜边做”「Agentic Search」模式,不仅能帮忙找答案,还能自己规划步骤、编写代码、调用工具来完成任务。该模式内置20余种智能工具,能够自动完成5-15步的工具调用。为了达到更好的推理能力和更稳定的工具调用,新版模型的参数规模也提升了10倍。在内部盲测中,新版对旧版胜率为73%。
阿里巴巴心流研究团队发布全新终端AI智能体「iFlow CLI」
9月24日,阿里巴巴心流研究团队发布全新终端AI智能体「iFlow CLI」,个人用户永久免费。该智能体基于大模型技术,全面适配「DeepSeek-V3.1-Terminus」版本,可理解自然语言指令,自动分析代码仓库、执行编程任务并处理文件整理等复杂工作流程。用户通过终端输入自然语言命令即可实现任务自动化,提升开发效率。
参考:即刻体验! iFlow CLI 全面适配 DeepSeek-V3.1-Terminus 版本!
阶跃星辰发布了新产品「阶跃桌面AI伙伴」
9月24日,阶跃星辰发布了新产品「阶跃桌面AI伙伴」(小跃),旨在为普通用户提供一个简单易用的桌面ChatBot,常驻桌面右上角,时刻在线、可以同时执行多个任务。该产品连接了本地操作系统,支持查看和管理本地文件、访问互联网、执行复杂任务,支持通过“妙计”复用操作步骤,也支持设置“定时任务”到点自动执行。
技术进展
Google DeepMind更新其最新的「前沿AI安全框架」
9月22日,Google DeepMind悄然更新其最新的「前沿AI安全框架」,将“前沿模型可能阻止人类关闭或修改自己”的风险纳入考量。新版框架新增“说服力”类别,应对“有害操控”风险。Google称持续追踪该能力并开发新评估体系,DeepMind每年至少更新一次框架。另外,OpenAI在2023年推出类似框架,但今年已将“说服力”从风险类别中移除 。
清华大学联合面壁智能发布「MiniCPM-V 4.5」技术报告
9月22日,清华大学自然语言处理实验室和面壁智能联合发布「MiniCPM-V 4.5」技术报告。该模型通过“统一的3D-Resampler架构实现高密度视频压缩、面向文档的统一OCR和知识学习范式、可控混合快速/深度思考的多模态强化学习”三大技术,在视频理解、图像理解、OCR、文档解析等多项任务上取得显著突破,不仅以8B参数规模超越「GPT-4o-latest」和「Qwen2.5-VL-72B」等大型模型,更在推理速度上具有显著优势。
参考:成果 | MiniCPM-V 4.5 技术报告:解构新一代高效端侧多模态模型养成指南
市场动态
MediaTek推出新一代旗舰5G智能体AI芯片「天玑9500」
9月22日,联发科技(MediaTek)推出新一代旗舰5G智能体AI芯片「天玑9500」,是迄今为止最强大的旗舰移动芯片,并展示了一系列新形态端侧的AI应用,在公众层面首次推动端侧AI从尝鲜到好用。「天玑9500」采用业界先进的第三代3纳米制程,集成了强力焕新的全大核CPU、GPU、NPU、ISP图像处理器等高算力单元,在端侧A!、专业影像、主机级游戏体验以及网络通信等方面开启领航未来的全面跃升。
参考:MediaTek 发布天玑 9500,强悍冷劲算力革新旗舰体验
OpenAI、甲骨文与软银联合宣布将在美国新建五座AI数据中心
9月24日消息,OpenAI、甲骨文(Oracle)与软银(Soft Bank)联合宣布,将在美国新建五座AI数据中心,以支持OpenAI「星际之门」(Stargate)项目。这一重大扩展将使Stargate计划提前实现其在2025年底前确保总计5000亿美元投资和10吉瓦(gigawatt)算力的承诺。前一日,NVIDIA官宣向OpenAI投资1000亿美元,为OpenAI的下一代AI基础设施部署至少10吉瓦的NVIDIA系统,也是「星际之门」项目的补充。
参考:刚刚,Sam Altman发文,透露OpenAI正在干的大事业
高通推出第五代「骁龙8至尊版」等多款旗舰芯片
9月24日,高通连发三款旗舰芯片,均采用3nm制程工艺。首先是第五代旗舰手机SoC芯片「骁龙8至尊版」(骁龙8 Elite),CPU性能提升20%、GPU性能提升23%、NPU性能提升37%。此外还推出「骁龙X2 Elite Extreme」和「骁龙X2 Elite」PC处理器,是目前最快、最高效的Windows PC处理器;NPU算力达80TOPS,首次实现Arm架构5GHz稳定运行,AI性能是英特尔竞品的5.7倍。
更多推荐
所有评论(0)