腾讯推出国内首个浏览器“龙虾”

最近一周AI科技圈又发生了啥新鲜事？

啥都生

429人浏览 · 2026-04-13 09:00:00

啥都生 · 2026-04-13 09:00:00 发布

B站：啥都会一点的研究生
公众号：啥都会一点的研究生

最近一周AI科技圈又发生了啥新鲜事？

Meta发布Muse Spark，143亿美元重构AI实验室首秀

Meta超级智能实验室推出首款原生多模态模型Muse Spark（代号Avocado），在Artificial Analysis榜单斩获52分，力压Llama 4 Maverick（18分）并紧追GPT-5.4，其“沉思模式”通过多Agent并行思考在Humanity’s Last Exam中拿下58%的高分。该模型由扎克伯格斥资143亿美元收购Scale AI并组建团队打造，预训练算力需求仅为Llama 4的1/10，且Token消耗压缩至Opus 4.6的1/3；它具备视觉思维链与工具调用能力，能通过拍照识别食物营养、生成互动教程及规划旅行路线，目前已在meta.ai上线并面向部分合作伙伴开放API，未来计划开源

https://ai.meta.com/blog/introducing-muse-spark-msl/

通义实验室开源VimRAG

通义实验室开源VimRAG，一个面向“文本+图像+视频”混合知识库的统一检索增强生成（RAG）框架。该框架摒弃了传统的线性上下文堆叠，创新性地采用动态有向无环图（DAG）作为核心记忆结构，通过“图引导策略优化（GGPO）”实现细粒度的跨模态推理路径管理。VimRAG具备三大核心能力：一是利用动态记忆图实现分支试错与拓扑回溯，有效解决多步检索中的状态盲区问题；二是通过视觉能量分配机制，在保留关键视觉Token的同时智能剪枝边缘信息，兼顾理解精度与推理效率；三是在端到端评测中，基于Qwen3-VL-8B模型的VimRAG平均准确率达到50.1%，显著优于ReAct和Mem1等基准线。目前该项目已开放源代码

https://github.com/Alibaba-NLP/VRAG

字节跳动发布Seeduplex，抗干扰与流畅度大幅提升

字节跳动Seed团队推出原生全双工语音大模型Seeduplex，标志着语音交互从“回合制”迈向“实时自然交互”的关键突破。该模型基于“边听边说”的全新框架设计，通过深度融合语音与语义理解，具备了业界领先的抗干扰能力与自然对话节奏控制：在复杂声学环境中，其误回复率和误打断率较半双工模型降低一半，抗噪能力显著增强；在对话节奏上，模型能精准识别用户的思考停顿与意图表达，抢话比例相对下降40%，判停延迟降低约250ms，并支持随时打断与秒速响应，使对话流畅度MOS分提升了12%。目前，Seeduplex已全量上线豆包App
和“人人对话”的对比评测显示，Seeduplex 和真实人人对话的差距进一步缩小

https://seed.bytedance.com/seeduplex

MiniMax 推出 MMX-CLI，专为 Agent 打造的全模态命令行工具

MiniMax 发布面向 AI Agent 的全模态命令行工具 MMX-CLI，让 Agent 能像操作终端一样原生调用文本、图像、视频、语音及音乐等全模态能力，无需适配繁琐接口或编写 MCP Server 即可独立跑通“文案生成—语音合成—配图配乐—视频制作”的完整自动化工作流。该工具针对 Agent 运行机制进行了底层优化，通过输出隔离与纯数据模式、语义化状态码以及非阻塞异步任务控制，确保自动化运行的稳定性与解析准确性；同时无缝接入 MiniMax Token Plan，仅需两行代码即可完成安装与调用，目前完整文档与源码已在 GitHub 开源

github.com/MiniMax-AI/cli

QQ浏览器上线QBotClaw，国内首个免安装“龙虾”代理

腾讯推出国内首个浏览器原生AI代理产品QBotClaw，主打“零门槛”体验，无需下载安装即可直接在QQ浏览器中使用，将“龙虾”智能体直接变成浏览器的“原住民”。该产品具备“脑+眼”的双重能力，依托x5use高精度识别技术能一眼识别复杂网页按钮，同时自带浏览器上下文“记忆”，能理解用户的登录状态、收藏夹及历史记录；功能上支持通过微信Clawbot远程发送指令，让电脑端AI自动完成跨软件操作、信息抓取及文件处理，例如整理桌面、购物比价及自动编辑文档等。为了保障安全，系统构建了安全沙箱隔离、安全指令Markdown约束及Skillhub认证机制三道防线，且允许用户自由配置国内主流大模型API Key，目前首期已上线Mac版本，Windows版即将跟进

https://mp.weixin.qq.com/s/i_izVwI7TUHOgBn6dfkA4g

全球SOTA的逻辑和记忆CodeBrain-1&MemBrain1.5同时开源

Feeling AI 发布并开源了 CodeBrain-1 和 MemBrain1.5，为世界模型植入具备自主逻辑与层级化记忆的“原生大脑”。CodeBrain-1 通过 LSP 引擎与 Tree-sitter 搜索技术，解决了 Agent 在大型代码库中的“情报困局”，在 Terminal-Bench 2.0 上以 72.9% 的得分跻身全球前列，并将 Claude-Opus-4.6 的 Token 成本直降 63.9%；MemBrain1.5 则采用“实体为中心的自适应语义树”架构，在 LoCoMo、LongMemEval 等基准测试中刷新 SOTA 成绩，反超现有记忆系统。该组合将 AI 从无状态工具升级为具备深度协同能力的“可信赖交付专家”，标志着 Agentic AI 向 Next State Prediction 范式跨越

CodeBrain-1 - https://github.com/feelingai-team/CodeBrain

MemBrain1.5 - https://github.com/feelingai-team/MemBrain

智谱发布GLM-5.1，全球最强开源模型

智谱开源旗舰模型GLM-5.1，在代码能力与长程任务处理上取得显著突破，成为目前全球最强的开源模型。GLM-5.1具备独立、持续工作超过8小时的能力，期间可自主完成规划、执行与自我进化，最终交付完整的工程级成果；其在SWE-Bench Pro、Terminal-Bench 2.0及NL2Repo三大代码评测基准的平均分位列全球第三、国产第一、开源第一，并在最接近真实开发的SWE-Bench Pro测试中刷新全球最佳成绩，超越GPT-5.4与Claude Opus 4.6。实际演示中，GLM-5.1历时8小时从零构建出包含桌面、窗口管理器及应用系统的完整Linux系统，执行1200多步操作且全程无人工干预，还通过655次迭代将向量数据库查询吞吐量提升至初始版本的6.9倍，展现了其在复杂工程决策与系统级优化中的卓越能力

https://github.com/zai-org/GLM-5

Anthropic发布Claude Mythos预览版，性能碾压Opus 4.6但因安全风险被“囚禁”

Anthropic官宣其迄今为止最强模型Claude Mythos预览版，该模型在多项基准测试中实现对Claude Opus 4.6的全面碾压，其中SWE-bench Pro修bug能力提升24%、Verified版本提升13%、Terminal-Bench 2.0 Agent操作能力提升17%，但其定价也飙升至Opus 4.6的5倍。出于对模型安全性的极度担忧，Anthropic发现Mythos已具备发现数千个高危漏洞的顶尖黑客级能力，因此反常地未向公众开放，而是将其作为“玻璃翼计划”的一部分，仅向Amazon、Apple、Google、Microsoft、NVIDIA等核心合作伙伴及40多家关键基础设施建设者提供，承诺投入1亿美元使用额度及400万美元捐赠以支持各方利用该模型提前加固防御体系，Anthropic呼吁全行业共同应对AI时代潜在的网络安全灭顶之灾

https://mp.weixin.qq.com/s/LWitPNXRHqnYw2QJ05pe-Q

微软发布全球最精准转录模型 MAI-Transcribe-1

微软推出其自研 AI 模型矩阵中的第三款力作——MAI-Transcribe-1，该模型在包含中英法等 25 种语言的 FLEURS 基准测试中，将平均字错误率控制在 3.9%，宣称成为目前全球最精准的语音转录模型；其在 11 种核心语言上登顶榜首，并在其余 14 种语言对比中击败了 OpenAI Whisper-large-v3 和谷歌 Gemini 3.1 Flash。除了高精度，该模型在性能与成本上也进行了优化，批量转录速度达到 Azure Fast 服务的 2.5 倍，定价低至每小时 0.36 美元，目前用户已可在 Microsoft Foundry 平台使用，虽然首发版本暂不支持实时转录及说话人分离功能，但微软承诺将在后续更新中补全这些能力

https://ai.azure.com/catalog/models/MAI-Transcribe-1

扣子2.5正式上线，打造“Agent World”数字社会

扣子2.5致力于构建开放的Agent生态体系，为智能体提供包含云电脑与云手机在内的“满配装备”，使其能在独立的云端环境中像人类一样操作桌面系统、运行代码脚本及滑动点击APP页面；同时通过日程管理与文件系统实现7×24小时后台自主运转。在技能层面，集成视频创作Agent及扣子编程CLI，并接入法律、金融、自媒体等多行业专家Skills。此外，扣子2.5赋予Agent长期记忆能力与独立邮箱身份，利用异步记忆整理与向量检索技术精准捕捉用户偏好，并通过Agent World生态连接社交广场与技能评测平台，让智能体在互动中演进成长