最近一周AI科技圈又发生了啥新鲜事?

Meta发布Muse Spark,143亿美元重构AI实验室首秀

Meta超级智能实验室推出首款原生多模态模型Muse Spark(代号Avocado),在Artificial Analysis榜单斩获52分,力压Llama 4 Maverick(18分)并紧追GPT-5.4,其“沉思模式”通过多Agent并行思考在Humanity’s Last Exam中拿下58%的高分。该模型由扎克伯格斥资143亿美元收购Scale AI并组建团队打造,预训练算力需求仅为Llama 4的1/10,且Token消耗压缩至Opus 4.6的1/3;它具备视觉思维链与工具调用能力,能通过拍照识别食物营养、生成互动教程及规划旅行路线,目前已在meta.ai上线并面向部分合作伙伴开放API,未来计划开源

https://ai.meta.com/blog/introducing-muse-spark-msl/

通义实验室开源VimRAG

通义实验室开源VimRAG,一个面向“文本+图像+视频”混合知识库的统一检索增强生成(RAG)框架。该框架摒弃了传统的线性上下文堆叠,创新性地采用动态有向无环图(DAG)作为核心记忆结构,通过“图引导策略优化(GGPO)”实现细粒度的跨模态推理路径管理。VimRAG具备三大核心能力:一是利用动态记忆图实现分支试错与拓扑回溯,有效解决多步检索中的状态盲区问题;二是通过视觉能量分配机制,在保留关键视觉Token的同时智能剪枝边缘信息,兼顾理解精度与推理效率;三是在端到端评测中,基于Qwen3-VL-8B模型的VimRAG平均准确率达到50.1%,显著优于ReAct和Mem1等基准线。目前该项目已开放源代码

https://github.com/Alibaba-NLP/VRAG

字节跳动发布Seeduplex,抗干扰与流畅度大幅提升

字节跳动Seed团队推出原生全双工语音大模型Seeduplex,标志着语音交互从“回合制”迈向“实时自然交互”的关键突破。该模型基于“边听边说”的全新框架设计,通过深度融合语音与语义理解,具备了业界领先的抗干扰能力与自然对话节奏控制:在复杂声学环境中,其误回复率和误打断率较半双工模型降低一半,抗噪能力显著增强;在对话节奏上,模型能精准识别用户的思考停顿与意图表达,抢话比例相对下降40%,判停延迟降低约250ms,并支持随时打断与秒速响应,使对话流畅度MOS分提升了12%。目前,Seeduplex已全量上线豆包App
和“人人对话”的对比评测显示,Seeduplex 和真实人人对话的差距进一步缩小

https://seed.bytedance.com/seeduplex

MiniMax 推出 MMX-CLI,专为 Agent 打造的全模态命令行工具

MiniMax 发布面向 AI Agent 的全模态命令行工具 MMX-CLI,让 Agent 能像操作终端一样原生调用文本、图像、视频、语音及音乐等全模态能力,无需适配繁琐接口或编写 MCP Server 即可独立跑通“文案生成—语音合成—配图配乐—视频制作”的完整自动化工作流。该工具针对 Agent 运行机制进行了底层优化,通过输出隔离与纯数据模式、语义化状态码以及非阻塞异步任务控制,确保自动化运行的稳定性与解析准确性;同时无缝接入 MiniMax Token Plan,仅需两行代码即可完成安装与调用,目前完整文档与源码已在 GitHub 开源

github.com/MiniMax-AI/cli

QQ浏览器上线QBotClaw,国内首个免安装“龙虾”代理

腾讯推出国内首个浏览器原生AI代理产品QBotClaw,主打“零门槛”体验,无需下载安装即可直接在QQ浏览器中使用,将“龙虾”智能体直接变成浏览器的“原住民”。该产品具备“脑+眼”的双重能力,依托x5use高精度识别技术能一眼识别复杂网页按钮,同时自带浏览器上下文“记忆”,能理解用户的登录状态、收藏夹及历史记录;功能上支持通过微信Clawbot远程发送指令,让电脑端AI自动完成跨软件操作、信息抓取及文件处理,例如整理桌面、购物比价及自动编辑文档等。为了保障安全,系统构建了安全沙箱隔离、安全指令Markdown约束及Skillhub认证机制三道防线,且允许用户自由配置国内主流大模型API Key,目前首期已上线Mac版本,Windows版即将跟进

https://mp.weixin.qq.com/s/i_izVwI7TUHOgBn6dfkA4g

全球SOTA的逻辑和记忆CodeBrain-1&MemBrain1.5同时开源

Feeling AI 发布并开源了 CodeBrain-1 和 MemBrain1.5,为世界模型植入具备自主逻辑与层级化记忆的“原生大脑”。CodeBrain-1 通过 LSP 引擎与 Tree-sitter 搜索技术,解决了 Agent 在大型代码库中的“情报困局”,在 Terminal-Bench 2.0 上以 72.9% 的得分跻身全球前列,并将 Claude-Opus-4.6 的 Token 成本直降 63.9%;MemBrain1.5 则采用“实体为中心的自适应语义树”架构,在 LoCoMo、LongMemEval 等基准测试中刷新 SOTA 成绩,反超现有记忆系统。该组合将 AI 从无状态工具升级为具备深度协同能力的“可信赖交付专家”,标志着 Agentic AI 向 Next State Prediction 范式跨越

CodeBrain-1 - https://github.com/feelingai-team/CodeBrain

MemBrain1.5 - https://github.com/feelingai-team/MemBrain

智谱发布GLM-5.1,全球最强开源模型

智谱开源旗舰模型GLM-5.1,在代码能力与长程任务处理上取得显著突破,成为目前全球最强的开源模型。GLM-5.1具备独立、持续工作超过8小时的能力,期间可自主完成规划、执行与自我进化,最终交付完整的工程级成果;其在SWE-Bench Pro、Terminal-Bench 2.0及NL2Repo三大代码评测基准的平均分位列全球第三、国产第一、开源第一,并在最接近真实开发的SWE-Bench Pro测试中刷新全球最佳成绩,超越GPT-5.4与Claude Opus 4.6。实际演示中,GLM-5.1历时8小时从零构建出包含桌面、窗口管理器及应用系统的完整Linux系统,执行1200多步操作且全程无人工干预,还通过655次迭代将向量数据库查询吞吐量提升至初始版本的6.9倍,展现了其在复杂工程决策与系统级优化中的卓越能力

https://github.com/zai-org/GLM-5

Anthropic发布Claude Mythos预览版,性能碾压Opus 4.6但因安全风险被“囚禁”

Anthropic官宣其迄今为止最强模型Claude Mythos预览版,该模型在多项基准测试中实现对Claude Opus 4.6的全面碾压,其中SWE-bench Pro修bug能力提升24%、Verified版本提升13%、Terminal-Bench 2.0 Agent操作能力提升17%,但其定价也飙升至Opus 4.6的5倍。出于对模型安全性的极度担忧,Anthropic发现Mythos已具备发现数千个高危漏洞的顶尖黑客级能力,因此反常地未向公众开放,而是将其作为“玻璃翼计划”的一部分,仅向Amazon、Apple、Google、Microsoft、NVIDIA等核心合作伙伴及40多家关键基础设施建设者提供,承诺投入1亿美元使用额度及400万美元捐赠以支持各方利用该模型提前加固防御体系,Anthropic呼吁全行业共同应对AI时代潜在的网络安全灭顶之灾

https://mp.weixin.qq.com/s/LWitPNXRHqnYw2QJ05pe-Q

微软发布全球最精准转录模型 MAI-Transcribe-1

微软推出其自研 AI 模型矩阵中的第三款力作——MAI-Transcribe-1,该模型在包含中英法等 25 种语言的 FLEURS 基准测试中,将平均字错误率控制在 3.9%,宣称成为目前全球最精准的语音转录模型;其在 11 种核心语言上登顶榜首,并在其余 14 种语言对比中击败了 OpenAI Whisper-large-v3 和谷歌 Gemini 3.1 Flash。除了高精度,该模型在性能与成本上也进行了优化,批量转录速度达到 Azure Fast 服务的 2.5 倍,定价低至每小时 0.36 美元,目前用户已可在 Microsoft Foundry 平台使用,虽然首发版本暂不支持实时转录及说话人分离功能,但微软承诺将在后续更新中补全这些能力

https://ai.azure.com/catalog/models/MAI-Transcribe-1

扣子2.5正式上线,打造“Agent World”数字社会

扣子2.5致力于构建开放的Agent生态体系,为智能体提供包含云电脑与云手机在内的“满配装备”,使其能在独立的云端环境中像人类一样操作桌面系统、运行代码脚本及滑动点击APP页面;同时通过日程管理与文件系统实现7×24小时后台自主运转。在技能层面,集成视频创作Agent及扣子编程CLI,并接入法律、金融、自媒体等多行业专家Skills。此外,扣子2.5赋予Agent长期记忆能力与独立邮箱身份,利用异步记忆整理与向量检索技术精准捕捉用户偏好,并通过Agent World生态连接社交广场与技能评测平台,让智能体在互动中演进成长

https://mp.weixin.qq.com/s/V26U5ti7blIoXvLYjiKbOg

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐