Cyber Weekly #56

多模态崛起，Agent进入全模态阶段。

老A的AI实验室

1301人浏览 · 2025-05-19 12:02:16

老A的AI实验室 · 2025-05-19 12:02:16 发布

赛博·新闻

5月15日，MiniMax推出新一代语音模型Speech-02，在两项全球权威语音基准测评榜单（Artificial Analysis Speech Arena 和 Hugging Face TTS Arena）中，超越 OpenAI、ElevenLabs 等全球性能优异的模型，双双位列第一。该模型以自回归Transformer架构为基础，在Artificial Analysis权威评测中超越OpenAI和ElevenLabs登顶，尤其在字错率（WER）和说话人相似度（SIM）等关键指标上达到SOTA水平。其核心突破在于两大技术创新：一是通过可学习的speaker编码器实现零样本语音克隆，仅需数秒语音片段即可精准复现说话人的音色、语调和节奏，无需额外训练且成本仅为竞品的1/4；二是采用Flow-VAE架构增强语音特征表征能力，通过流匹配模型和双保险设计（全局音色信息+上下文提示）提升合成语音的自然度和情感表现力。模型支持32种语言，在多语言语音克隆、跨语言合成方面表现优异，尤其在中文、粤语等复杂声调语言中显著优于竞品，同时创新性地引入T2V框架实现通过自然语言描述生成特定音色，结合情绪控制功能使合成语音具备拟人化特质。MiniMax通过预置数百种多语言声音库、支持任意音色克隆与灵活调控，推动语音AI向个性化、情感化交互演进，已在智能硬件、教育、车载等多场景加速商业化落地，标志着国产大模型在技术突破后进入规模应用新阶段，为构建智能交互生态奠定基础。

MiniMax Audio：MiniMax Audio: Create lifelike speech、MiniMax 语音：让文字栩栩如“声”

GitHub：MiniMax-Speech Tech Report | Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder

Hugging Face：https://huggingface.co/spaces/MiniMaxAI/MiniMax-Speech-Tech-Report

2、腾讯混元图像2.0正式发布

5月16日，腾讯混元发布的Hunyuan Image2.0模型被定位为全球首款实时图像生成模型，通过超高压缩倍率图像编解码器、全新扩散架构、超大模型规模及强化学习后训练等技术突破，实现了“毫秒级出图”的颠覆性速度。用户在输入提示词（Prompt）的过程中，模型即可同步生成多张图像，甚至在用户完成输入前输出初版结果，彻底改变了传统“输入-等待”的线性交互模式，形成实时对话式创作体验。该模型在速度上以0.9597分刷新行业标杆的同时，通过强化学习后训练和美学优化技术显著提升图像真实感，尤其在处理怀旧风、胶片质感等场景时能消除“AI味”，生成高度写实的人物与环境细节。新增的实时绘画板功能支持用户结合手绘草图和文字提示，通过调节“图片强度”参数即时预览生成效果，将创作过程转化为动态互动。文章强调该技术不仅突破生成效率瓶颈，更通过“边思边见”的实时反馈重构人机协作逻辑，推动AI图像生成从工具向创作伙伴演进。作者认为这一突破标志着中国在AGI（通用人工智能）领域取得里程碑式进展，其“未知先见”的交互范式或将重新定义内容生产流程，具有划时代的行业意义。

3、OpenAI上线编程智能体Codex

5月17日，OpenAI正式推出名为Codex的云端编程智能体并集成至ChatGPT，标志着软件工程领域向自动化迈出重要一步。Codex基于专为软件工程优化的codex-1模型，通过强化学习在真实编程任务中训练，能够生成符合人类编码风格与PR规范的代码，具备并行处理编写功能、解答代码问题、修复bug及提交拉取请求等多项能力。用户可通过ChatGPT侧边栏触发任务，Codex将在预加载代码库的隔离云沙盒环境中运行，支持实时查看进度日志与测试结果，最终输出可验证的代码修改方案供人工审核或直接集成至开发环境。其安全设计通过禁用互联网访问与容器隔离保障代码安全性，并依托AGENTS.md文件指导智能体遵循项目规范。当前Codex已向Pro、Team和Enterprise用户开放，初期免费使用后将转为按需付费模式，定价基于API调用token量计费。尽管仍存在图像支持缺失、执行速度较慢等局限性，但Codex展现的自主编码潜力已引发行业震动，测试者反馈其能精准模拟代码逻辑与形态，预示着软件大规模自我编写的可能性。OpenAI计划未来增强智能体交互性，使AI协作趋近人类开发者的异步工作模式，或将彻底改变编程生态。

4、阿里开源全能视频大模型Wan2.1-VACE

5月14日晚，阿里巴巴正式开源通义万相 Wan2.1-VACE。这是业界功能最全的视频生成与编辑模型，单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。本次共开源 1.3B 和 14B 两个版本，其中 1.3B 版本可在消费级显卡运行，开发者可在 GitHub、Huggingface 及魔搭社区下载体验。该模型还将逐步在通义万相官网和阿里云百炼上线。据介绍，Wan2.1-VACE 基于通义万相文生视频模型研发，同时创新性提出了全新的视频条件单元 VCU，它在输入形态上统一了文生视频、参考图生视频、视频生视频，基于局部区域的视频生视频 4 大类视频生成和编辑任务；同时，Wan2.1-VACE 还进一步解决了多模态输入的 toke n序列化难题，将 VCU 输入的帧序列进行概念解耦，分开重构成可变序列和不可变序列后进行编码。Wan2.1-VACE 支持全部主流输入形式，涵盖文本、图像、视频、Mask和控制信号，还支持任意基础能力的自由组合，用户无需针对特定功能训练一个新的专家模型，即可完成更复杂的任务。

5、Manus上线图像生成功能

5月16日，AI Agent Manus 正式上线了图像生成功能。据 ManusAI 介绍，Manus 主打的是「理解意图 + 制定方案 + 多工具协同」的执行能力，生图只是其中一个环节。就在前几天，Manus 还宣布开放其注册资格，同时每个用户每日还可获得免费试用一项任务的 300 积分和一次性获得 1000 积分奖励。Manus 生图功能体验要点如下：

支持复杂提示词、风格定制、图像二次调整

生图速度较 GPT-4o 略慢，约 1~4 分钟出图

支持中途修改、打断任务，执行方式高度灵活

赛博·洞见

1、用AI辅助做产品功能设计 1.0

文章核心阐述了如何利用AI工具重构传统产品设计流程，实现从需求分析到产品落地的全链条智能化。作者银海通过Pailido相机、语音备忘录等案例，展示了AI如何将多步骤操作压缩为“场景选择+拍摄”的一键式体验，颠覆了传统产品设计中需求拆解、用户调研、功能设计、文档撰写、技术开发割裂的工作模式。文章提出以Amazon Q为代表的AI工具能通过自然语言交互完成需求结构化分析、创意发散、用户洞察、PRD生成、Figma界面解析、API对接等全流程任务，结合MCP服务实现“界面设计-代码生成”的无缝衔接，使非技术人员也能快速将创意转化为可运行的产品原型。重点强调AI时代产品经理的核心能力已从文档编写转向精准定义问题、设计交互逻辑和把控AI协作流程，通过10个标准化提示词模板与工具链整合，开发者可跳过繁琐的技术细节，聚焦于核心场景创新，最终实现“动嘴做产品”的终极形态，使产品设计周期从周级压缩至小时级，真正释放人类创造力。

2、如何设计 AI 与人的交互？以及为什么真正的创新必然是集中式的？

本文的核心观点在于论证真正的产品创新必须依赖集中式创造而非跨部门协作，并通过AI交互设计案例展开分析。作者以Google Photo和iOS相册的图片搜索功能为例，揭示二者在召回率与精确率上的策略差异：Google通过牺牲部分精确率换取高召回率，优先确保用户能找到目标照片；iOS则追求精确率优先，导致部分照片遗漏引发用户困惑。由此引申出AI交互设计的核心矛盾——在技术指标权衡中应当以用户真实需求为导向，而非简单追求技术完美。文章提出更优的交互设计方案：分阶段动态调整召回与精确策略，结合用户行为主动触发扩展搜索，并强调AI产品需构建用户画像、偏好及情境理解的三要素体系。最终回归核心论点，指出极致用户体验需要打破部门壁垒，通过跨职能团队的紧密协作实现“即兴合奏”，传统职业化分工模式会阻碍创新涌现。真正的产品创新必须依靠集中式、非线性快速迭代的协作机制，而非遵循流程化跨部门协作，因为高度优化的体验是多方角色深度共创的产物，需要拆除组织边界、建立信任基础，才能实现技术能力与人文关怀的有机融合。

3、CAMEL-AI x MCP：一篇文章读懂如何让 AI 智能体玩转所有工具

本文介绍了模型上下文协议（MCP）作为AI智能体与外部工具交互的标准化解决方案及其在CAMEL-AI框架中的应用。MCP基于JSON-RPC 2.0协议，通过统一接口实现了不同AI模型与工具的无缝对接，解决了以往需要为每个工具单独开发适配接口的低效问题。CAMEL-AI通过集成MCP协议，使智能体既能作为客户端调用各类MCP服务器提供的标准化工具（如时间查询、网络搜索等），也能将自身功能封装为MCP服务器供其他智能体调用，构建了灵活的多智能体协作生态系统。文章展示了具体实现方式，包括工具函数快速封装、跨平台配置对接（如与Claude桌面应用集成），以及通过CAMEL MCP Hub实现工具目录共享和动态搜索。这种标准化协议不仅降低了开发门槛，还通过构建工具生态网络释放了AI智能体的潜力，使复杂任务能通过多智能体协作自动完成。CAMEL-AI通过角色扮演智能体、实时决策机制和多模态工具集成，结合MCP协议正在推进包括自动化工作流、社会模拟等前沿方向，标志着AI系统向开放协同、工具泛化方向迈进的关键突破。

4、a16z最新播客，解释AI Coding的一切

a16z最新播客探讨了AI Coding作为第二大AI应用市场的核心趋势，指出其通过提升开发者生产力将释放数万亿美元经济价值。AI编程工具正推动开发流程从代码编写转向规范设计，开发者更多扮演需求定义者角色，而AI负责实现与调试，这种转变尤其适用于标准化场景但面临复杂系统时仍依赖人工干预。Vibe Coder群体崛起催生了新型软件开发模式，普通用户可通过自然语言生成功能原型，但深度优化仍需理解底层技术原理，传统编程语言不会消亡但可能演化出更AI友好的形态。当前AI工具存在幻觉问题和确定性输出挑战，需通过强化学习、上下文扩展及结构化提示词优化来增强可靠性。市场分化趋势显现，可能出现面向快速原型和企业级开发的差异化模型，而遗留系统迁移仍需结合AI生成规范与人工重构。计算机教育将更侧重架构设计、算法思维等抽象能力培养，编程工具与开发流程的深度集成正在重塑软件生态，最终通过降低技术门槛激发更多人参与创新，催生前所未有的应用场景与软件形态。

5、刚刚！北大校友Lilian Weng最新博客来了：Why We Think

北大校友Lilian Weng的博客《Why We Think》系统探讨了大语言模型通过增加“测试时计算”（即延长思考时间）提升复杂任务性能的机制与挑战。文章指出，类比人类认知双系统理论中的慢速思维，模型通过思维链（CoT）在推理过程中生成中间步骤，显著提升了数学、编程等任务的准确性，且模型规模越大收益越明显。测试时计算的策略包括并行采样（生成多个候选答案后筛选最优）和序列修订（迭代修正错误），但自我修正需依赖外部反馈以避免幻觉或错误。强化学习结合过程奖励与结果验证能有效优化推理路径，但也面临奖励黑客（模型钻规则漏洞）的挑战。未来需解决思维链忠实性验证、自适应计算资源分配、知识蒸馏压缩优化成果等问题，以平衡推理成本与性能，推动AI系统实现更接近人类的反思与纠错能力。

6、红杉美国合伙人：生成式 AI 的下半场不是拼算力，而是拼“记忆”

红杉资本合伙人Konstantine Buhler提出生成式AI已进入以“记忆”为核心竞争力的新阶段，指出国家AI战略应关注算力、电力、数据和算法四大支柱，而“AI记忆”正成为第五大关键能力。他强调智能体需具备持续记忆与自我认知能力，如医疗场景中AI需长期追踪患者互动细节，推动AI从工具向“合作者”演进。红杉内部研发的Model Context Protocol（MCP）协议成为技术突破点，该框架通过统一语言协议实现AI与软件间的跨领域协作，典型案例包括投资组合公司Rocks利用MCP整合客户数据自动生成商业提案，以及连接代码生成工具构建完整产品演示。面对中国AI研究力量的崛起，Buhler承认中国在人才规模上的优势，但认为美国仍凭借开放协作的技术生态、顶尖工程师集群及算法创新能力保持领先，特别强调MCP协议支撑的AI Agent生态系统将成竞争关键——多个专业AI通过协同形成“跨学科团队”，使系统具备集体智慧扩展能力，这种基于记忆与协作的智能跃迁将决定未来国家与企业的竞争力格局，而硅谷的开放式创新文化仍是技术持续突破的核心驱动力。

7、首款设计Agent被挑战，Manus、Lovart 像素级对比

本文对比了通用设计Agent Manus与垂直设计Agent Lovart在图像生成任务中的表现差异，揭示了二者在产品定位与能力边界上的本质区别。作者通过图像融合、品牌视觉设计、原图风格化三个实战案例的像素级测评，指出Manus作为通用型工具在任务拆解、跨平台信息整合（如抓取宜家产品数据生成家具搭配方案）、多模态输出（图片+分析报告+网页部署）等方面展现强大执行力，其优势在于精准理解用户需求并快速完成复杂操作链路，但存在生成结果缺乏设计创意、品牌元素一致性不足等短板。而Lovart作为垂直领域Agent则展现出对设计美学的深度理解，能主动构建视觉系统世界观（如将茶饮品牌与滑板文化有机融合）、保持设计语言统一性（海报与瓶身风格连贯）、追加超出用户预期的细节构思（价格标签植入、渐变纹理处理），其核心价值在于将设计从单次制图升级为包含动效模板、音乐适配、品牌延展的系统性交付。作者最终强调AI生态的终极形态应是通用与垂直Agent的协同共生——如同乐队中各司其职的乐手，Manus承担高效执行的基础工作，Lovart专注创意深挖，二者互补构建完整设计工作流，用户应根据任务特性灵活选择而非非此即彼，尤其在设计这类强专业领域，垂直Agent的行业洞察力具有不可替代性。

8、谷歌前 CEO 断言：AI 从未被高估，真正红利只剩 3 年窗口

谷歌前CEO埃里克·施密特在TED 2025演讲中指出，AI的真正红利窗口期仅剩三年（2025-2027），其核心挑战已从算法转向国家能源系统与基础设施。当前AI发展面临三大结构性转折：算力需求暴增百倍导致电力缺口成为技术瓶颈，全球3亿劳动力缺口亟待AI填补，欧盟监管窗口压缩至36个月。施密特强调，AI正从内容生成工具升级为“流程接管者”，通过强化学习自主规划任务、重组业务流程，企业需将核心系统接口开放给AI代理才能抓住红利。技术发展呈现指数级斜率差，领先6个月将形成不可逆优势，医疗领域的药物靶点识别、教育领域的个性化母语导师、企业端到端的AI流程重构将成为三年内确定性爆发方向。这场变革本质是全球权力再分配——技术应用速度而非发明速度决定胜负，开源生态可能重塑产业格局。组织存亡关键在于能否建立与AI共生的自适应系统，拒绝转型者将在三年内丧失竞争力。AI不是工具而是新基础设施，其窗口期并非技术成熟期而是利益分配关键期，个体、企业及国家都需以“系统重构”而非“局部优化”应对这场工业革命级转型。

赛博·工具

1、z2h 字帖

用正确的方法刻意练习，每个人都能写出一手漂亮的字，自定义字帖字体和内容，可打印导出练字。

2、MathModelAgent

开源的 AI 应用，自动完成数学建模，生成一份完整的论文。

3、AI 语音克隆

免费的语音克隆工具，3 秒录音克隆人声。

赛博·资源

1、QuestMobile 2025全域AI应用市场报告

QuestMobile 2025全域AI应用市场报告显示，中国AI应用市场已形成移动端原生App、应用插件（In-App AI）及PC端网页应用三大主流形态，其中移动端占据绝对主导地位，原生App与插件用户规模分别达5.91亿、5.84亿，远超PC端网页应用的2.09亿。市场呈现四大核心趋势：一是AI搜索引擎、综合助手、社交互动、专业顾问四大亿级赛道崛起，AI搜索引擎跨域竞争最为激烈，移动端原生App与插件用户规模分别达2亿、3.38亿；二是手机厂商借助系统级入口优势强势领跑AI综合助手赛道，华为小艺、OPPO小布助手以1.57亿、1.48亿月活超越豆包，仅次于AI科技企业DeepSeek的1.93亿，形成与互联网企业的差异化竞争格局；三是应用插件依托传统App流量快速实现AI普惠价值，百度、抖音、微信的AI搜索插件用户规模均破亿，但用户习惯培养仍是挑战；四是PC端聚焦生产力工具属性，AI创作设计、PPT制作等垂类高速增长，但尚未出现亿级应用。未来竞争将围绕Agent多任务协同能力展开，手机厂商的系统调用优势与互联网企业的场景运营能力将共同驱动行业迭代，垂直赛道仍存在专业化、差异化的结构性机会。

2、非凡产研发布2025年4月AI产品榜单

报告揭示了2025年4月全球AI应用市场的分化趋势与商业化新动向：ChatGPT以50亿美元年度经常性收入（ARR）巩固头部地位，而垂直应用Midjourney、Cursor等通过细分场景抢占腰部市场，B2B工具如ThoughtSpot凭借高客单价构建壁垒。新锐产品KLING AI和manus以8倍月增速突显视频生成与智能体赛道的商业化拐点，海外市场由Gemini和Grok分食聊天机器人红利，Character.ai、JanitorAI则以情感陪伴获千万级流量。中国市场方面，deepseek维持访问量与月活双冠，但开发者平台、工具链类产品渗透率攀升；Otter AI、HeyGen等出海项目通过会议助手、视频生成等差异化定位冲入全球ARR50榜单，验证“中国方案”的海外可行性。资本降温、产品迭代与用户付费共同驱动市场分化：高频刚需产品（如ChatGPT）现金流持续增长，B2B工具依赖高客单价模式，KLING AI借短视频风口与Agent化体验快速扩张，中国出海企业则利用多语种计费与“低价高质”策略打开国际市场。截至2025年4月，中国已有约20家AI应用ARR突破千万美元，未来10亿美元级企业或来自高频刚需、深度B2B价值、爆款黑马及出海赛道。非凡产研通过独立第三方数据监测显示，AI竞争已从流量争夺转向商业化效率与场景深度的多维博弈。

广州城市开发者社区

欢迎加入我们的广州开发者社区，与优秀的开发者共同成长！

更多推荐

从训诂学到人工智能：一场两千年的相关性困局，与因果性的破局时刻

广州城市开发者社区

Trae实现Web UI自动化测试

广州城市开发者社区

Selenium自动化测试常见的异常处理

本文深入探讨了Selenium自动化测试中的异常处理技术。首先分析了异常处理的重要性，指出其能保障测试稳定性和可靠性。接着详细介绍了Selenium中的主要异常类型，包括WebDriver异常、元素交互异常和时间相关异常等。文章重点讲解了三种异常处理方法：使用try-catch捕获异常、日志记录和重试机制，并通过两个典型案例（处理NoSuchElementException和TimeoutExce