51c大模型~合集180
这个基准会基于任务的一个个关键节点,也就是 “里程碑”,对在动态 GUI 环境中执行任务的 Agent 进行精确打分,避免了 “不是满分,就是零分” 的单一评判标准,并且覆盖了社交、影音、购物、旅行、外卖等多个领域的国产主流 App。光聪明还不够,反应慢也是硬伤。即使是提到的大多数面向消费者的 AI 功能,比如视觉智能和 iMessage、FaceTime 中的实时翻译,早在今年 6 月的 WWD
我自己的原文哦~ https://blog.51cto.com/whaosoft/14174583
#AgentScope
阿里AgentScope发布,掀翻了国产Agent的餐桌
在近年来,人工智能从单一模型到多模态、从AI Agent到Agentic AI的过渡,从工具调用到完整工作流,已经形成了一个由“智能体”驱动的全新生态。阿里的通义实验室最新发布了一款能够对标LangGraph的企业级智能体开发框架AgentScope 1.0,它将消息驱动与分层架构深度融合,为企业级应用提供了一套开箱即用、可扩展且易维护的方案。我们先来看看效果:
阿里先后发布过一个Mobile-Agent和Qwen-Agent,其中Qwen-Agent就是网页版Qwen的后端使用智能体框架,虽说也很稳定,但是略显简陋,后面有退出专为编程设计的Qwen-code,可以说阿里在智能体开发框架方脉年积累的经验也着实不少了,这次推出的AgentScope,可以看出来,这是一款集大成者,是一款非常全面、稳定的企业级的智能体开发框架。
在大语言模型(LLMs)快速发展的推动下,Agent能够将内在知识与动态工具使用相结合,大幅提升了其处理现实任务的能力。顺应这一发展趋势,AgentScope 在新版本(1.0)中实现了重大改进,旨在全面支持基于工具的灵活、高效智能体 - 环境交互,助力智能体应用构建。具体而言,团队提炼了智能体应用所需的核心基础组件,并提供统一接口和可扩展模块,使开发者能够轻松利用最新技术进展(如新型模型和模型上下文协议 MCPs)。此外,我们将智能体行为基于 ReAct 范式构建,并依托系统化的异步设计提供高级智能体层基础设施 —— 这不仅丰富了人机交互与智能体间交互的模式,还提升了执行效率。在此基础上,我们集成了多个针对特定实际场景的内置智能体。AgentScope 还提供了完善的工程化支持,为开发者打造友好体验:我们设计了带有可视化工作室界面的可扩展评估模块,让长轨迹智能体应用的开发更易于管理和追踪;同时,AgentScope 提供运行时沙箱(runtime sandbox)以确保智能体安全执行,并助力其在生产环境中快速部署。通过这些增强特性,AgentScope 为构建可扩展、自适应且高效的智能体应用奠定了实用基础。
更多关于AgentScope 1.0的内容可以阅读原文:
- 论文链接:https://arxiv.org/abs/2508.16279
- 开源仓库:https://github.com/agentscope-ai/agentscope
- huggingface:https://huggingface.co/papers/2508.16279
,时长04:02
智能体层基础设施
本章围绕智能体层核心架构、内置智能体及多智能体协作模式展开,核心是基于ReAct范式构建高效、灵活的智能体运行体系:
- 基于ReAct范式的架构:以ReAct范式(结合推理与行动)为核心架构,智能体具备三大核心功能——Reply(接收用户查询后推理、行动并生成响应)、Observe(处理外部信息并更新内部状态,不生成用户响应)、Handle Interrupt(处理外部中断信号,支持人机协作)。同时提供三大关键特性:实时控制(通过asyncio取消机制暂停ReAct循环,保留中断上下文)、并行工具调用与动态工具供应(单推理步骤生成多并行工具调用,通过
reset_equipped_tools
动态激活/停用工具组)、状态持久化与非侵入式定制(基于StateModule
实现状态管理,通过钩子函数修改运行时行为)。 - 内置智能体:包含三类场景化智能体——深度研究智能体(集成Tavily搜索MCP,核心能力为查询扩展、分层反思、过程总结,结合记忆模块生成报告)、浏览型智能体(集成Playwright MCP,支持子任务分解、视觉-文本信息融合、多标签浏览、长网页分块处理)、元规划智能体(支持分层任务分解、动态工作智能体实例化、持久状态管理,可自动切换“简单ReAct模式”与“规划模式”)。
- 多智能体协作:支持两种核心范式——“智能体作为工具”(主智能体调用专业智能体处理子任务,智能体可独立开发、无缝集成)、“智能体对话”(通过Pipeline封装交互模式<顺序/条件/循环>,通过MsgHub实现集中消息广播,保障多智能体上下文同步)。
开发者友好体验
本章聚焦降低开发门槛的工具集,通过评估、可视化与运行时系统覆盖开发全流程:
- 评估模块:采用分层架构(Task:单个评估单元,含输入与真值;SolutionOutput:标准化智能体输出,含执行轨迹;Metric:支持分类/数值型指标;Benchmark:聚合任务形成评估 suite),提供两类评估器——GeneralEvaluator(单进程顺序执行,适合调试)、RayEvaluator(基于Ray分布式计算,适合大规模评估),支持结果持久化与中断续跑。
- Studio可视化平台:核心功能包括——聊天机器人式对话与追踪(实时流传输消息/追踪数据,可视化交互流程,关联对话与执行轨迹)、评估结果可视化(生成性能分布图表,计算置信区间,支持失败轨迹对比)、内置副驾驶Friday(检索技术资源<代码示例/文档>,展示框架高级功能<实时控制/动态工具>)。
- Runtime运行时系统:双核心架构——Engine(将智能体部署为FastAPI服务,支持A2A等多智能体通信协议)、Sandbox(提供隔离环境,支持文件系统/浏览器等专用场景,接口统一),简化部署流程并保障工具执行安全。
典型应用
本章通过5个实操案例展示框架落地能力,覆盖常见智能体应用场景:
- 用户-助手对话:通过ReAct智能体(指定模型/工具集/记忆)与UserAgent构建,支持OpenAI、DashScope等多模型提供商,以消息交互实现对话,用户输入“exit”终止流程。
- 多智能体对话:用MsgHub管理参与者(如教师/学生/医生智能体),通过SequentialPipeline控制发言顺序,支持动态移除参与者并广播状态(如“Bob离开”)。
- 深度研究智能体:基于ReAct扩展,集成Tavily搜索MCP,可自动分解研究任务、补充知识缺口、生成结构化分析报告,适用于学术/市场研究。
- 浏览型智能体:集成Playwright MCP建立状态ful连接,支持网页快照捕捉、分块处理长网页、自动导航/点击,可响应“查询股票价格”等自动化指令。
- 元规划智能体:含规划/工作两类工具集,支持复杂任务分解(如Meta股票分析报告)、工作智能体动态管理,具备状态持久化能力,适合多步骤工作流(数据采集-分析-生成)。
#Awe Dropping
苹果发布会:耳机测心率、手表听音乐、iPhone Air超级薄
北京时间 9 月 10 日凌晨 1 点,伴随着 Tim Cook 的一声「Good Morning」,这场主题为「Awe Dropping」的 2025 苹果秋季新品发布会正式拉开帷幕。
,时长02:29
发布会持续 75 分钟,AirPods、Apple Watch 和 iPhone17 系列轮番上阵,其中印象最深刻的卖点就是:耳机测心率、手表听音乐、iPhone Air 超级薄。😂
今年的 iPhone 17 系列总共分为四款机型,价格如下:
- iPhone 17 起售价 799 美元 / 5999 元;
- iPhone Air 起售价 999 美元 / 7999 元;
- iPhone 17 Pro 起售价 1,099 美元 / 8999 元;
- Pro Max 起售价 1,199 美元 / 9999 元;Pro Max 首次可选配高达 2TB 的存储空间,售价 1,999 美元 / 17999元。
以上机型都将于 9 月 12 日星期五开始预订,并计划于下周五(9 月 19 日)发货。
至于大众瞩目的 AI 功能,发布会上介绍的可谓是少之又少。即使是提到的大多数面向消费者的 AI 功能,比如视觉智能和 iMessage、FaceTime 中的实时翻译,早在今年 6 月的 WWDC 大会上就已经展示过了,而且这些功能也并不是苹果的创新,谷歌和三星等竞争对手早在一年前就推出了类似的功能。
更有意思的是,发布会开始前半小时,苹果的股价就先跌为敬,发布会后股价下跌 1.48%,并且盘后价还在继续跌。
iPhone Air
刚刚,苹果发布了史上最薄的 iPhone——iPhone Air,厚度仅为 5.6 毫米,重 165 克,配备 6.5 英寸 ProMotion 显示屏,刷新率最高可达 120Hz,峰值亮度为 3000 nits。
苹果称,iPhone Air 的设计是迄今为止最耐用的,其陶瓷护盾两侧包裹着钛金属框架。
iPhone Air 配备了全新的 A19 Pro 处理器,这是目前最强大的 iPhone 芯片,并且搭载了苹果自研的 C1x 调制解调器,比 C1 快两倍。
此外,iPhone Air 还采用了苹果的新 N1 芯片设计,支持 Wi-Fi 7、蓝牙 6 和 Thread 技术。
尽管如此薄,苹果承诺 iPhone Air 具备全天电池续航,支持最多 27 小时的视频播放,使用售价 99 美元的 iPhone Air MagSafe 电池时,电池续航可达 40 小时。苹果还表示,iOS 26 中的自适应电源模式将帮助设备更加高效。
值得注意的是,iPhone Air 仅支持 e-SIM 卡。仅有 A3518 国行版可在中国大陆激活,并且目前仅支持中国联通。
iPhone Air 配备了 4800 万像素的双摄融合相机系统和一颗 1200 万像素长焦镜头。其还配备了一种新系统,可结合前后摄像头,让你在拍摄自己视频的同时还能捕捉眼前的景物。
1800 万像素的自拍相机还支持居中拍摄功能,这项功能在普通版 iPhone 17 上也有,可以自动将所有人纳入照片中,无需将手机旋转至横屏模式。
为了让 iPhone Air 变得如此薄,苹果在多个方面进行了技术创新和优化,包括调制解调器和芯片。摄像头的设计也经过特别处理,X 光图显示它被紧密集成在手机内,摄像头的设计为平面而非通常的凸起。
iPhone Air 提供黑色、白色、米色和浅蓝色款式。
苹果还发布了几个新配件,包括超薄 MagSafe 电池以及半透明外壳。这两款配件均可搭配一条新的斜挎背带。
iPhone Air 的发布与即将于 9 月 15 日发布的 iOS 26 同步。更新后的操作系统将带来全新的 Liquid Glass 设计语言,使一些导航元素和图标呈现出泡泡状的透明外观,曾在测试期间引发了一些用户的分歧。
iPhone Air 起售价为 7999 元,提供 256GB 存储,最大 1TB 版本售价 11999 元。
iPhone 17 Pro 和 Pro Max
iPhone 17 Pro 和 Pro Max 是 iPhone 17 系列的高端型号。
Pro 系列回归使用铝合金机身,搭载史上最大电池,并在背面采用了一个全新的全宽摄像头平台。
并且首次在三个摄像头上都使用了 4800 万像素传感器,长焦镜头分辨率更高,还配备了比之前大 56% 的传感器,,支持最高 8 倍的光学变焦。
下面是 𝕏 博主 @Zedd 分享的一段实拍视频,看起来效果非常好:
,时长00:09
https://x.com/Zedd/status/1965487516787880307
此外,自拍相机具备 1800 万像素传感器,并支持 Center Stage 功能,可以动态调整画面,确保每个人都出现在照片中,而且无需将手机旋转到横屏模式自拍。
视频拍摄方面新增了「双重捕捉」功能,可以同时使用前后摄像头录制视频,支持 ProRes RAW、Log 2 和 genlock 专业视频功能。苹果宣称其 Pro iPhone 足以满足专业摄影师的需求。
Pro 系列有三种颜色:银色、蓝色和橙色,并从钛金属回归到更坚固的铝合金机身,采用抗刮擦的 Ceramic Shield 玻璃。
iPhone 17 Pro 的屏幕尺寸与去年 16 Pro 相似,后者为 6.3 英寸,而 17 Pro Max 为 6.9 英寸。屏幕依旧支持 ProMotion,最高 120Hz 的刷新率,最高亮度提升至 3000nits,今年四款 iPhone 均支持此亮度。
与新 Air 一样,两个 Pro 型号搭载了 A19 Pro 芯片。这是一款 3nm 工艺的芯片,拥有六核 CPU,苹果表示这是「所有智能手机中最快的」,还配备六核 GPU。
与 Air 不同,Pro 系列配备了苹果迄今为止最大的电池,带来史上最长的电池续航,Pro Max 支持最高 37 小时的视频播放。充电支持更快的 25W MagSafe 无线充电。
iPhone 17 Pro 起售价为 8999 元,Pro Max 起售价为 9999 元,均提供 256GB 存储。这是 Pro 系列的价格小幅上涨,但与 16 Pro 的 256GB 版本一致。Pro Max 首次可配备最高 2TB 存储,售价为 17999 元。
iPhone 17
至于常规款 iPhone 17, 我们简单看看其参数即可:
- A19 芯片,采用第三代 3 纳米制程
- 6.3 英寸超视网膜 XDR 显示屏
- 后摄 4800 万像素,融合式主摄 + 融合式超广角摄像头
- 1800 万像素 Center Stage 前摄
- 正面配备超瓷晶面板 2
- 支持 120Hz 自适应刷新率
- 颜色:薰衣草紫、鼠尾草绿、青雾蓝、白、黑
- 价格:5999 元(256GB),7999 元(512GB)
N1 芯片
苹果在 iPhone 17 系列中推出了自家研发的无线网络芯片 ——N1。
这个芯片支持最新的网络技术,比如 Wi-Fi 7、蓝牙 6 和智能家居协议 Thread。以前,苹果的设备是使用博通的芯片来支持蓝牙和 Wi-Fi,但现在苹果使用 N1 芯片来提升 AirDrop 和个人热点等功能的性能和可靠性。
iPhone 17 全系列都会配备这款 N1 芯片。
此外,苹果还发布了新一代的 C1X 5G 调制解调器,它的速度是上一个版本 C1 芯片的两倍。
AirPods Pro 3
苹果 AirPods Pro 3 是该产品三年来首次重大更新,引入了新的心率传感器,并改进了主动降噪 (ANC) 功能和实时翻译功能。
AirPods Pro 3 现已开放预订,售价 249 美元 / 1899 元,将于 9 月 19 日开始发货。
苹果提升了 AirPods Pro 3 的音质,带来更宽广的声场和更佳的降噪效果。采用泡沫填充耳塞,使其主动降噪(ANC)效果比上一代 AirPods Pro 提升一倍,并称其为「全球最佳的入耳式无线耳机 ANC」。
AirPods Pro 3 引入了一个新的实时翻译功能,用户只需用一个简单的手势,就可以开始翻译对方说的语言。同时,主动降噪功能会降低说话者的音量,帮助用户更集中精力听到翻译内容。
实时翻译不仅翻译单个单词,还会翻译整个短语的意思,尤其是当两个人都佩戴 AirPods Pro 时,翻译效果更好。如果其中一方没有免提功能,还可以选择用 iPhone 作为显示屏,实时显示对方说话内容的转录,并翻译成对方偏好的语言。
苹果提升了 AirPods Pro 的舒适性、稳定性和耐用性,特别适合运动时使用。苹果分析了大量耳朵形状的数据,优化了 AirPods Pro 的设计,使它们更小、更符合耳道的自然结构,并且提供五种不同尺寸的耳塞。此外,AirPods Pro 3 还具备 IP57 级防汗防水功能,即使在剧烈运动或大雨中使用也不怕损坏。
进一步提升健身体验的功能是心率监测。苹果为 AirPods Pro 3 定制了最小的心率传感器,结合机器学习算法和加速度计数据,精确测量心率。同时,它还通过新 AI 模型进行活动和卡路里跟踪,并结合 Apple Heart 和 Movement Study 的数据,帮助用户更好地追踪运动情况。
同时,苹果还为用户提供了「Workout Buddy」功能,利用 Apple Intelligence 在运动时激励用户、追踪锻炼数据和健身历史记录。
在电池方面,AirPods Pro 单次充电的续航时间从 6 小时提高到了 8 小时,而对于助听器用户,透明模式下的续航时间达到了 10 小时,比上一代增加了 4 个小时。
Apple Watch
苹果更新了三款 Apple Watch。
苹果发布的 Apple Watch Series 11 是迄今为止最薄的 Apple Watch,起售价 399 美元 / 2999 元,今天开始接受预订,并将于 9 月 19 日开始发货。
首款支持 5G 连接,配备了重新设计的蜂窝天线,在信号较弱的区域提供更好的覆盖,并具备实时翻译功能。
它还能够监测高血压,并使用光学心率传感器和新算法在后台追踪血压变化。新增的睡眠评分功能帮助评估睡眠质量。
电池续航最长可达 24 小时,配备 Ion-X 玻璃,抗刮擦能力是上一代的两倍。
铝合金版本将提供亮黑色、太空灰、玫瑰金和银色;抛光钛金属版本将提供自然色、金色和灰色。
(左右滑动查看图片)
苹果还发布了新款入门级 Apple Watch SE 3,配备更快的 S10 处理器、更长的电池续航(续航达 18 小时)、更强的前玻璃、5G 蜂窝连接和温度传感器,且终于支持常亮显示。
40mm 型号起售价 1999 元,9 月 19 日发售,现已开始接受预订。SE 3 还将提供更大的 44mm 型号(2199 元起),且两款都将有午夜色和星光色铝合金表壳。
SE 3 还支持双击和手腕轻甩手势、睡眠呼吸暂停检测、睡眠评分、回顾性排卵估算、2 倍更快充电、通过扬声器播放音乐和播客等功能。
此外,苹果还发布了 Apple Watch Ultra 3,新增 5G、最长 42 小时电池续航和卫星连接功能。其屏幕边缘更接近,显示区域更大,支持高血压提醒和睡眠评分。
起售价 799 美元 / 6499 元,提供自然色和黑色钛金属款,9 月 19 日发售。
Ultra 3 继承了 Ultra 2 的特点,专为运动员和运动爱好者设计,具有大电池寿命(Apple 承诺 Apple Watch Ultra 2 在正常使用下可达 36 小时)、明亮的显示屏和改进的 GPS 功能。
除了新款手表,苹果还将在今年秋季发布 watchOS 26,其中包括由 Apple Intelligence 驱动的 Workout Buddy、改进的 Smart Stack、手腕轻甩手势来关闭通知,以及苹果的新 Liquid Glass 设计语言。
网友评论
苹果发布会还没开始,就被网友剧透个差不多,还多次承包微博热搜。
尤其是 iPhone 17 的外观设计,社交平台上吵翻了天。
很多人打差评,有说长得像电子秤,有说长得像充电宝,总之丑得很有辨识度,甚至华为 Mate 60 Pro 的井盖镜头都能看顺眼了,毕竟配上个小黄人手机壳。
但也有人认为,年年说丑,年年卖爆。
对此,你怎么看?
请在手机微信登录投票
买吗? 单选
买!
不买!
犹豫。
参考链接:
https://www.youtube.com/watch?v=H3KnMyojEQU
https://www.theverge.com/news/772434/apple-iphone-17-event-news
.
#AI应用元年,这场标杆赛事见证了中国创新速度与野心
一场关于未来金融智能的集体预演,见证了创业者们的冲刺,也折射出一个行业的进化。
2025 年的 AI ,正在上演「双线长跑」。
一端是大模型底层的持续进化,远未触顶;另一端是场景应用集中爆发。
来自 a16z 最新发布的全球百强 GenAI 应用榜单,释放出一个清晰信号,在「 AI 如何改造行业」应用上,中国玩家已展现出全球领先优势。
与此同时,国务院印发的「人工智能+」行动计划又添了一把柴。AI 的赋能范围,正从新质生产力的试点,扩展到全社会,被视作未来现代化的核心引擎。
这股脉动,在 AFAC2025金融智能创新大赛上体现得淋漓尽致。作为连续举办三年的金融智能标杆赛事,它已成为海内外 AI 创业团队的聚合地。在为期三个月的赛程中,11 支队伍从初创组脱颖而出——
获奖方案直击真实金融痛点,覆盖底层技术突破与复杂系统工程,落地性极强,跨界创新尤为显著。
11支获奖团队的项目方向、技术亮点和应用场景,大都直击真实金融痛点,落地性极强,「跨界」创新明显。
现在正处于一个「转折点」,其规模和影响力不亚于十年前的互联网创业浪潮,评委们直言。
但与那时不同,AI 已不再是「附加选项」,而是新兴企业的底层基础设施——速度更快,范围更广,也更难以回避。「在这场竞赛中,中国跑在了前列。」Roselake Ventures 共同创始人及合伙人阳靳光说。
中国的应用落地速度是全球领先的,另一位评委、xcube.co 首席幕僚长兼董事、新加坡金融科技节和 GFTN 日本论坛官方大使 Eelee Lua 相信,到 2030 年,AI 将在技术突破和产业落地上带来「更多重大」的创新。
「归巢」父子兵
11 支获奖队伍中,有一对组合比较特别:32 岁的徐周明和 60 岁的父亲徐俊。
今年大赛出现了一个显著趋势:来自美国、英国、新加坡、日本等地的 AI 人才集体「归巢」,回国创业和参赛。参赛者年龄跨度从 20 岁到 65 岁,创业热情跨越世代。徐氏父子的故事,正是这股浪潮的缩影。
徐周明是「 90 」后,本科就读于香港(数学与金融双学位),毕业后进入顶尖投行做持牌交易员,拿下 CFA 证书,随后转向家族办公室和对冲基金。
2019 年,他决定把「 AI + 金融」的直觉转化为事业,在大湾区创立香港凤凰涅盘科技。
初创组答辩现场,徐周明进行方案分享。
这一次,他们带来的项目被称为「反洗钱 3.0 」,技术核心是群体学习:结合联邦学习与区块链,解决数据共享与隐私保护的难题。
传统联邦学习虽然能让数据留在各银行本地,但聚合过程仍依赖中央处理器,一旦被黑客攻击,就可能通过反推泄露敏感信息。
徐周明的方案,是彻底「去中心化」——在联邦学习框架中引入区块链和智能合约,让不同节点随机承担聚合任务:这一轮可能在 A 银行完成,下一轮可能在 B 银行完成,从根源上消除中央节点的单点风险。
与他并肩的是父亲徐俊,自称「老行政」。在内地行政体系工作多年,他更关注原则与方向,「我们的技术要为祖国、为社会服务。」
徐俊在初创组答辩现场,为台上正在路演的儿子徐周明拍摄记录。
父子同台并非噱头,而是一种中国式创业的缩影:国际先导与本土落地的对接。
香港的金融环境提供了跨境、跨国的先导性难题,逼迫团队更早面对数据主权与隐私计算。他们的体系已在香港部分金融机构试点,并得到数码港等机构支持。
来到上海参赛,则让他们有机会把国际化经验与技术移植到内地——而内地,尤其是上海,拥有广阔的落地土壤。
「海归团队常常被批评水土不服。」徐周明承认。父亲的加入,恰好补齐沟通与制度上的短板。对这对「父子兵」而言,技术与制度、全球视野与本土语境,正试图在同一条赛道上同步加速。
硬核创新,跨界浪潮
如果说「归巢」是一大趋势,那么「跨领域」则是另一条清晰的注脚。
像徐周明那样,把联邦学习与区块链放进同一套方案的案例并不少见。光通信、卫星遥感、图计算、区块链等技术,正与金融场景叠加,参赛方的出身各异,却指向相似的目标:缩短时延,降低风险,提升合规效率。
冠军项目来自光通科技。他们用光通信技术重塑金融交易网络,搭建起一条比高铁还快的金融专用信息高速公路。
自研的 2 Tbit/s 光模块,按团队说法,足以支撑每秒数百万张高清图片的传输。而关键部件——硅光微环调制器、PIN 探测器和封装平台——全部自研,目标直指国产化与安全合规。
而拿了二等奖的岙邗科技,则把卫星遥感的「天眼」对准了金融风控。他们提出「卫星遥感+信贷立体化风控全周期监测方案」,已在部分金融客户中落地。
所谓「全周期」,是利用卫星每 15-30 分钟的重访能力,持续追踪目标的时序变化;而「立体化」,则能从三维角度获取信息,比如估算树木高度、区分树种。
负责人陈镜荣举了个例子:台风过境后的江浙农田,农户只需在保险 App 上标注地块,后台就能通过卫星影像自动估算淹水面积与倒伏程度,赔付额度随即生成。
初创组答辩现场,陈镜荣进行方案分享。
过去几百万亩地要靠大批调查员逐户走访,既耗时又难免夹杂人情因素,他告诉我们,如今赔付误差被控制在 5% 以内,赔付周期从数月缩短至数天,甚至数小时。
支撑该方案的,是自研的 5 nm 级高光谱分光器(可用于分析地质成分),主动多极化微波成像雷达(可穿透云层与沙尘暴等极端天气成像),以及多种遥感影像智能解译算法与低照度图像增强技术。
另一位二等奖获得者图盾科技,则把学术界的「图计算」带入金融风控一线,把行业普遍仅约 10% 的风险识别率提升到 50% 以上。该项目去年还斩获日内瓦与纽伦堡发明金奖。
团队负责人秦宏超博士留校任教于北京理工大学,曾参与国家重点研发任务,并首次将图计算方法应用于金融风控。
初创组答辩现场,秦宏超进行方案分享。
以票据中介识别为例,秦宏超解释说,传统方法多聚焦单一用户的交易数据,如短期内票据流转的数量、金额,容易将建筑企业的高频大额流转误判为异常,误报频繁。
图盾的方案则在学习用户金融特征的基础上,引入图神经网络,深度建模由票据流转形成的关系网络,使系统能够理解用户之间的业务往来与资金流向。同时叠加时序建模与多源数据融合,分析个体时序交互与群体(同伙或关联方)行为模式。
只有当某个用户在金融行为、关系网络、时序交互与群体模式等多个维度同时「高亮」时,才会被判定为高风险。在一次银行测试中,图盾提交的 200 余个名单里,55% 被确认为疑似票据中介,远超行业均值。
「我们的技术在百万级数据集上 2 秒内挖掘出 5 个节点的时序模式,而传统数据库的 join 操作需要上千秒才能完成。 更重要的是,不需要额外的高配算力,银行现有设备就能支持。」秦宏超强调。
多元与包容
大多数获奖项目有着相似的轮廓——
直击金融的核心痛点:反欺诈、反洗钱、信用评估等;成果不再停留在 PPT,而是真实运行在银行、证券、保险乃至对冲基金的业务中。
例如,金蝶征信凭借一套「足够成熟」的知识图谱增强风控大模型,已与两百余家金融机构建立紧密合作。
图盾科技的方案也在五家银行、证券所、蚂蚁集团的产学研合作项目以及一家反洗钱公司中落地应用
但在同一个舞台上,还闪耀着另一种光。
大三学生李天一和他的团队「厦门蓝天之上科技有限公司」,带来了一款与金融智能并不密切相关的应用:让手语在屏幕上实时转化为文字。它也没有炫目的技术,却让这个舞台更显多元与包容。
初创组答辩现场,李天一进行方案分享。
李天一就读于闽南理工学院机械电子与工程专业,团队核心成员来自厦门大学生命科学学院。灵感源于一次支教:在特殊教育学校里,听障孩子在课堂与生活中仍被沟通高墙隔绝,能不能用 AI 为他们做点什么?
由于市面上缺乏高质量的手语数据集,他们只能亲自采集、逐帧标注:录制视频,切分图像,再一点点加标签。如今,团队已覆盖上百类基础手语。
在实验室中,模型准确率可超过 80%;但在真实环境里,光照、角度、背景噪声常使效果打折。如何让模型更具泛化能力,成了李天一和他的团队必须攻克的课题。
算力有限,他们更多依赖免费或低成本的云资源。李天一坦言,工作量太大,但愿意慢慢补。
这次参赛契机也很朴素,「朋友介绍来的,听说有奖金。」他笑说。平日他们靠算法比赛奖金维持运转与研发,「如果拿到奖金,就买器件、上设备,继续打磨产品。」
是舞台,也是孵化器、风向标
在 AFAC 的舞台上,奖金有时被定义为一种燃料。李天一已经为它找好了去处,投向一个智能假肢项目。
而对那些历经赛事洗礼的老将来说,它的吸引力不在奖金数字,而是赛道专业与场景真实。
徐周明曾活跃在各类创新赛事,累积斩获 80 余项奖项。他强调,区别于那些「泛行业」舞台,AFAC 的专注与专业性,反倒让他们更有底气展示「真东西」。
这种专业不仅刻在赛题上,更写进评审团的构成与一次次点拨里。
近五十位来自技术、产业和资本的评委,台上「问诊」、台下拆解,从企业出海到落地挑战、从合规难点到资本语言,甚至为团队开出「组队」处方,帮助他们寻找通向未来的路径。
阳靳光把非洲、中东、东南亚的早期投资与孵化清单带进赛场,他在区块链、物联网、机器人领域的下注,正好与不少项目的「跨界融合」相互呼应。年轻团队希望借 AFAC 完成从 0 到 1 ,他则用资本吸引力与跨境落地的标尺,为他们衡量可行与不可行。
来自新加坡的 Eelee Lua 则凭借 17 年的金融科技与合规经验,帮参赛者判断方案是否能真正走到市场那一端。
例如,金蝶征信计划出海,将技术能力延伸至东南亚、美洲市场。农产品种植的周期,中外类似,这类数据可以复用。但要真正落地,还需要当地金融机构的配合与本地化改造。这正是投资人和顾问网络发挥作用的地方。
针对岙邗科技的遥感影像数据安全与合规挑战,评委建议探索「存算分离」模式:影像数据归属客户,团队仅负责处理分析,从而规避敏感风险,陈镜荣坦言,这是一个意想不到的解法。
李天一带走的启发则更具转向意味:尝试「用公益的心做商业化」,把手语识别模型适配到银行大屏,或在碳排放等产业场景寻找落点——「以前没想到这个方向」,他说,也许会在上海先行试水。
秦宏超记得评委的叮嘱,「找合伙人要抓紧,但不要太急。」眼下,他正在准备在 9 月 10 日开幕的上海外滩大会上,用 demo show 打出名声,扩大可见度。
「他们渴望合作,却缺少渠道。」在阳靳光看来,像 AFAC 这类赛事,正是搭建桥梁的机会,让中国创业者被更多人看见,也让海外市场找到连接的通路。
而对更多团队而言,它也是一座通往上海的桥。
我们正准备在上海落地注册公司,拓展长三角的业务。陈镜荣透露,岙邗科技已经对接了张江的一家硬科技孵化器。「这个孵化器本身就专注航天、光电等硬核方向,和我们非常契合,还有潜在的客户资源。」
徐周明也与本地金融机构建立起更紧密的联系,期待推动实质落地,将产品落地到上海。
最终,大家的收益并不止于方法论、资源与曝光,还有思想的拓展。「有些想法,也许现在用不上,但三五年后可能就能落地。或者它在一个市场不适用,却在另一个市场能打开局面。」陈镜荣说。
新一轮 AI 应用浪潮席卷而来,AFAC 也不再只是一个竞赛的名字。它在悄然生成另一种角色:创业的孵化器、行业的风向标。
三年来,越来越多的项目在这里找到落地的路径,越来越多的想法在这里获得启发与验证。它把资本、技术、产业和政策拉到同一张桌子上,把「可能」推向「可行」。
它是一场关于未来金融智能的集体预演,见证了创业者们的冲刺,也折射出一个行业的进化。它让不同的人在这里相遇,未来中国 AI 创业领军者,或许会在这片舞台上第一次被看见。
.
#Real-Time Detection of Hallucinated Entities in Long-Form Generation
AI胡说八道这事,终于有人管了?
想象一下,如果 ChatGPT 等 AI 大模型在生成的时候,能把自己不确定的地方都标记出来,你会不会对它们生成的答案放心很多?
上周末,OpenAI 发的一篇论文引爆了社区。这篇论文系统性地揭示了幻觉的根源,指出问题出在奖励上 —— 标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励。可能就是因为意识到了这个问题,并找出了针对性的解法,GPT-5 的幻觉率大幅降低。
随着 AI 大模型在医疗咨询、法律建议等高风险领域的应用不断深入,幻觉问题会变得越来越棘手,因此不少研究者都在往这一方向发力。除了像 OpenAI 那样寻找幻觉原因,还有不少人在研究幻觉检测技术。然而,现有的幻觉检测技术在实际应用中面临瓶颈,通常仅适用于简短的事实性查询,或需要借助昂贵的外部资源进行验证。
针对这一挑战,来自苏黎世联邦理工学院(ETH)和 MATS 的一项新研究提出了一种低成本、可扩展的检测方法,能够实时识别长篇内容中的「幻觉 token」,并成功应用于高达 700 亿(70B)参数的大型模型。
- 论文标题:Real-Time Detection of Hallucinated Entities in Long-Form Generation
- 论文地址:https://arxiv.org/abs/2509.03531
- 代码地址:https://github.com/obalcells/hallucination_probes
- 项目地址:https://www.hallucination-probes.com/
- 代码和数据集:https://github.com/obalcells/hallucination_probes
该方法的核心是精准识别实体级幻觉,例如捏造的人名、日期或引文,而非判断整个陈述的真伪。这种策略使其能够自然地映射到 token 级别的标签,从而实现实时流式检测。
通过 token 级探针检测幻觉实体。在长文本生成场景(Long Fact、HealthBench)中,线性探针的性能远超基于不确定性的基线方法,而 LoRA 探针则进一步提升了性能。该探针同样在短文本场景(TriviaQA)以及分布外推理领域(MATH)中表现出色。图中展示的是 Llama-3.3-70B 模型的结果。
为实现这一目标,研究人员开发了一种高效的标注流程。他们利用网络搜索来验证模型生成内容中的实体,并为每一个 token 标注是否有事实依据。基于这个专门构建的数据集,研究人员通过线性探针(linear probes)等简洁高效的技术,成功训练出精准的幻觉分类器。
在对四种主流模型家族的评估中,该分类器的表现全面超越了现有基准方法。尤其是在处理长篇回复时,其效果远胜于语义熵(semantic entropy)等计算成本更高的方法。例如,在 Llama-3.3-70B 模型上,该方法的 AUC(分类器性能指标)达到了 0.90,而基准方法仅为 0.71。此外,它在短式问答场景中也展现出优越的性能。
值得注意的是,尽管该分类器仅使用实体级标签进行训练,它却能有效识别数学推理任务中的错误答案。这一发现表明,该方法具备了超越实体检测的泛化能力,能够识别更广泛的逻辑错误。
虽然原始数据集的标注成本高昂,但研究发现,基于一个模型标注的数据可被复用于训练针对其他模型的有效分类器。因此,研究团队已公开发布此数据集,以推动社区的后续研究。
方法概览
用于 token 级幻觉检测的数据集构建
为了训练能够在 token 级别检测幻觉的分类器,研究者需要一个对长文本中的幻觉内容有精确标注的数据集。这个过程分为两步:(1) 生成包含事实与幻觉内容的混合文本 ;(2) 对这些文本进行准确的 token 级标注,以识别哪些 token 属于被捏造的实体。下图展示了该标注流程。
token 级标注流水线。
- 数据生成
研究者在 LongFact 数据集的基础上,创建了一个规模扩大 10 倍、领域更多样化的提示集 LongFact++。
LongFact++ 包含主题查询、名人传记、引文生成和法律案件等四类提示,旨在诱导大语言模型生成富含实体的长文本,作为后续标注的原材料。
- token 级标注
与传统方法将文本分解为 atomic claims 不同,该研究专注于标注实体(如人名、日期、引文等),因为实体有明确的 token 边界,易于进行流式检测。他们使用带有网络搜索功能的 Claude 4 Sonnet 模型来自动完成标注流程。
该系统会识别文本中的实体,通过网络搜索验证其真实性,并将其标记为「Supported」(有证据支持)、「Not Supported」(被证实是捏造的)或「Insufficient Information」(信息不足)。
- 标签质量
为验证标注质量,研究者进行了两项检查。首先,人类标注员的标注结果与大模型自动标注结果的一致性为 84%。其次,在一个包含已知错误(人工注入)的受控数据集中,该标注流程的召回率为 80.6%,假阳性率为 15.8% 。
训练 token 级探针
探针是一个附加在语言模型上的幻觉检测器,它由一个线性的「价值头」和可选的 LoRA 适配器组成。价值头读取模型中间层 ℓ 的隐藏状态
,并输出一个 token 级的幻觉概率 :
训练的总损失函数
是一个组合,它既包括用于训练幻觉分类器的探针损失
,也包括一个用于约束模型行为变化的正则化项
。
为了解决幻觉信号通常集中在少数几个关键 token 上的问题,研究者设计了一种结合了逐词损失和跨度最大值损失 的混合损失函数 。其公式如下:
这个设计的巧妙之处在于:对于一个被标记为幻觉的文本片段,只要其中至少有一个 token 的幻觉分数很高,损失函数就会给予奖励,从而让探针学会更精确地聚焦于关键错误信号 。
实验结果
在长文本设置中(LongFact 和 HealthBench),token 级探针在两个主要模型上的表现都显著优于基线方法(表 1)。简单的线性探针始终实现了 0.85 以上的 AUC 值,而 LoRA 探针进一步提升了性能,将 AUC 推高到 0.89 以上。
相比之下,基于不确定性的基线方法表现均不佳,AUC 值均未超过 0.76。在短文本设置中(TriviaQA),基线方法比长文本设置中表现更强,但探针仍然领先。LoRA 探针始终实现了超过 0.96 的 AUC 值,线性探针也表现良好。值得注意的是,本文提出的探针在 MATH 数据集上也取得了强劲的结果。这种分布外的性能表明,本文提出的方法捕获了正确性的信号,这些信号的泛化性超出了其最初针对的虚构实体。
作者在三个次要模型上复制了长文本结果,每个模型仅使用 2000 个其自身长文本生成的注释样本进行训练。结果是相似的:LoRA 探针再次优于线性探针,在 LongFact 生成上的 AUC 值在 0.87-0.90 之间。次要模型的完整结果显示在表 5 中。
虽然 LoRA 探针的 AUC 值在多个设置中接近或超过 0.9,但长文本上的 R@0.1 最高约为 0.7,即在 10% 假阳性率下,检测器能够识别出大约三分之二的幻觉实体。这些结果既突出了相对于标准基于不确定性基线方法的实际收益,也表明在这类方法能够广泛应用于高风险场景之前,仍有进一步改进的空间。
更多细节请参见原论文。
#MobiAgent
人人都能炼专属Agent,上海交大开源端侧Agent全栈工具链,真实场景性能超GPT-5!
打开手机,让 AI Agent 自动帮你完成订外卖、订酒店、网上购物的琐碎任务,这正成为智能手机交互的新范式。
一个能自主处理大部分日常任务的个人专属智能体,正在从科幻走进现实。
然而,通往 “解放双手” 的最后一公里却并不好走。如何高效地训练和在手机端部署 Agent 模型,长期以来似乎都是少数大厂的 “自留地”。从高质量操作数据的获取,到模型的训练与适配,再到移动端 APP 的优化,重重门槛将绝大多数开发者和普通用户挡在门外,也极大地限制了移动端 Agent 的生态发展。
就在刚刚,这一局面迎来了新的破局者。
来自上海交通大学 IPADS 实验室的团队,正式开源了一套名为 MobiAgent 的移动端智能体 “全家桶”。
- 论文地址: https://arxiv.org/abs/2509.00531
- AgentRR 论文:https://arxiv.org/abs/2505.17716
- 项目仓库: https://github.com/IPADS-SAI/MobiAgent
- 模型:https://huggingface.co/IPADS-SAI/collections
- APP:https://github.com/IPADS-SAI/MobiAgent/releases/download/v1.0/Mobiagent.apk
这套框架,首次将从 0 到 1 构建手机 Agent 的全流程完整地向所有用户开放。这意味着,从收集手机操作轨迹数据开始,到训练出一个能听懂自然语言指令、帮你处理日常事务的专属 Agent,再到最终将它部署在自己的手机上,现在,人人都能上手 DIY。
当然,光能 “炼” 还不够,性能必须能打。为了验证 MobiAgent 的真实能力,研究团队直接在国内 Top 20 的 App 上进行了实测。结果显示,7B 规模的 MobiAgent 模型,在任务平均完成分上,不仅超越了 GPT-5、Gemini 2.5 Pro 等一众顶级闭源大模型,也优于目前最强的同规模开源 GUI Agent 模型。
除了 Agent 能力之外,团队还为 Agent 设计了一个独特的 “潜记忆加速器”。面对点外卖、查地图这类高频重复操作,MobiAgent 能够 “举一反三”,通过学习历史操作来简化决策,靠 “肌肉记忆” 完成 Agent 任务,最终将端到端的任务性能提升了 2-3 倍。这样一套集 “数据捕获、模型训练、推理加速、自动评测” 于一体的四位一体框架,可以说,彻底打通了移动智能体从开发到落地的 “最后一公里”。
这,或许才是普通人真正想要的 Agent。那么,MobiAgent 究竟是如何做到的?
,时长00:51
Agent 养成全攻略:三步走
要让 AI 学会玩手机,首先得让它看懂人是怎么操作的。MobiAgent 的第一大核心,就是贡献了一套 AI 辅助的敏捷数据收集 “流水线”。
过去,给 AI 准备 “教材”(标注数据)又贵又慢。现在,MobiAgent 用一个轻量级小工具,就能记录下人类在手机上的所有点击、滑动、输入等操作轨迹。对于一些简单的任务,这一录制过程甚至可以完全交给大模型完成,进一步提高了数据收集的效率。
MobiAgent数据收集与自进化流程
但只有操作还不够,AI 得理解 “为什么” 这么做。于是,团队使用通用的 VLM 模型(例如 gemini-2.5-pro),让它对着操作记录,“脑补” 出每一步的思考过程和逻辑,自动生成高质量的 “带思路” 的训练数据。最后,也是最重要的一步,这些数据会经过一个自动化 “精炼流水线”,调整数据的难易平衡比例、输入任务描述、历史信息长度等等,让训练出的 Agent 模型具有更强的泛化能力。
有了高质量的教材,下一步就是训练。MobiAgent 的 "大脑"MobiMind,被设计成了一个分工明确的 “三人小组”:
- Planner(规划师): 负责理解复杂任务,进行拆解。
- Decider(决策者): 看着当前手机屏幕,决定下一步干啥。
- Grounder(执行者): 负责把 “点搜索按钮” 这种指令,精准定位到屏幕上的坐标并点击。
这种 “各司其职” 的架构,让模型训练起来更高效,能力也更强。
让 Agent 拥有 “肌肉记忆”,速度飙升 3 倍
光聪明还不够,反应慢也是硬伤。你肯定不想让 Agent 帮你买杯咖啡,结果思考了半分钟。为此,MobiAgent 团队祭出了第二个大杀器:AgentRR(Agent Record&Replay)加速框架。这个框架的核心思想,就跟我们人类的 “肌肉记忆” 一样:对于重复做过的事,直接凭经验搞定,不用再过一遍大脑。
AgentRR系统架构
AgentRR 会把智能体执行过的任务轨迹,通过树的形式记录在一个叫 ActTree 的结构里。当接到一个新任务时,一个超轻量的 “潜意识”(Latent Memory Model)会迅速判断:
这个任务我是不是做过类似的?前几步是不是可以照搬?
比如,无论是 “搜附近的火锅店” 还是 “搜附近的电影院”,点开地图 App、点搜索框这两步都是完全一样的。AgentRR 就能直接 “复用” 这段操作,跳过大模型的思考过程,从而大幅提升效率。效果有多好?在模拟真实用户使用习惯(80% 请求集中在 20% 任务)的测试中,动作复用率高达 60%-85%。反映在实际任务上,就是 2 到 3 倍的性能提升。
不同请求分布下,AgentRR 的动作复用率
真实场景大比拼:谁是 「手机操作之王」?
是骡子是马,拉出来遛遛。为了公平地评判各大模型的真实能力,团队还专门打造一个更贴近现实的移动端智能体评测基准:MobiFlow。这个基准会基于任务的一个个关键节点,也就是 “里程碑”,对在动态 GUI 环境中执行任务的 Agent 进行精确打分,避免了 “不是满分,就是零分” 的单一评判标准,并且覆盖了社交、影音、购物、旅行、外卖等多个领域的国产主流 App。
MobiFlow智能体评测基准
最终的评测结果,MobiAgent(MobiMind-Decider-7B + MobiMind-Grounder-3B 的组合)在绝大多数 App 上都取得了最高分,尤其是在购物、外卖这类复杂任务上,优势非常明显。相比之下,像 GPT 和 Gemini 这样的大模型,虽然也能完成一些任务,但有时会 “走捷径”,比如把所有要求一股脑全塞进搜索框,依赖 App 自身的 AI 搜索能力。这种 “偷懒” 的做法一旦遇到不支持 AI 搜索的 App,完成率就大幅下降。更重要的是,MobiAgent 在所有测试中都能正确终止任务,而 GPT-5 在 11 个 App 上都出现了 “无限循环” 卡住的问题。
总结
MobiAgent 的出现,不仅在性能上树立了新的标杆,更重要的是,它通过开源整个技术栈,极大地降低了定制化、私有化移动智能体的门槛。从日常应用的 Agent 开发,到每个人的个性化专属助理,想象空间被彻底打开。
或许,那个 “能动口就不动手” 的智能移动时代,就快到来了。
项目成员介绍
MobiAgent核心开发团队主要由上海交通大学IPADS实验室(并行与分布式系统研究所)的端侧智能体研究小组的本科生和硕士生,以及John班的实习生组成。主要指导教师为上海交通大学人工智能学院助理教授冯二虎。
..
#An AI system to help scientists write expert-level empirical software
谷歌AI新里程碑:一个能「做研究」的系统诞生了,用LLM+树搜索编写专家级软件
大模型在科研领域越来越高效了。
昨天,谷歌发表了一篇重磅文章,提出了一个能够帮助科研人员编写「专家级」科研软件的 AI 系统。
该系统融合了大语言模型和传统树搜索,能够自动编写和优化科研任务中所需的软件程序,能够获取多种渠道的现有知识,整合并且重组这些知识来构建一个新的研究思路。
谷歌生成,该系统不仅稳定达到专家水平,还常常超越人类。在基因组学、公共健康、数值分析等多个领域,这套系统的表现甚至超过了顶尖研究团队和国家级集成系统。
- 论文标题:An AI system to help scientists write expert-level empirical software
- 论文链接:https://www.alphaxiv.org/abs/2509.06503v1
如此这般,科研人员在各个领域的研究中都能够使用这一 AI 系统来构建全新的研究思路和实证程序,能够更高效地进行科学研究。
AI 在科研领域的应用一直以自动化的特性为主,能够辅助科研人员进行可行性验证,完成一些重复的高强度工作,减少科研人员在重复验证、调试程序等工作上浪费的时间,更能够激发科研人员的创新思维。
谷歌的这个系统能够实现研究思路的整合与重组,在科研任务中能够创建一些新的策略,构建更高效的模型,让 AI 系统介入科研领域的创新过程,从一次性代码生成的工具,转变为由量化目标指导的迭代、搜索驱动的软件演进。
不过也有网友表达了 AI 深入科研领域的担忧:
谷歌这一次的 AI 系统仍然具有很大的局限性,系统的构建目标是「可评分的科学任务」—— 即那些可以通过准确率、误差率或基准测试排名等指标来量化软件性能的计算问题,虽覆盖了广泛的科研领域,但未提及那些不可量化评估的任务表现。
值得一提的是,前谷歌搜索成员 Deedy Das 分享了这个工作,而他最感兴趣的是论文附录中的 Prompt。
论文中使用的指令:「请创建一种算法,结合两种策略的优点,形成一种真正出色的混合策略,并且其得分要高于任一单独策略。」说明优秀的结果并不总需要非常复杂的 Prompt 指令。
论文详细内容如下:
本研究引入了一个 AI 系统,该系统能自动为科学计算任务创建专家级的实证软件。该系统结合了大型语言模型和树搜索算法,以迭代地生成、评估和完善科学软件解决方案。其核心创新在于,LLM 不仅用于一次性代码生成,而是作为系统搜索过程中一个智能的「变异」引擎,能够整合并重组科学文献中的研究思路。
图 1: (a) 系统架构:展示了可评分问题与研究思路如何输入到大语言模型(LLM),由其生成代码,并在沙盒环境中进行评估,结果以树搜索结构进行组织。(b) 性能对比:不同方法的成功率比较,结果显示结合专家指导的树搜索(TS)取得了最高成功率。(c) 研究思路来源:包括专家知识、学术论文,以及 AI 生成的重组方案。
问题与方法
本系统的目标是「可评分的科学任务」—— 即那些可以通过准确率、误差率或基准测试排名等指标来量化软件性能的计算问题。这类任务涵盖了从基因组学到流行病学再到图像分析等广泛的科学计算应用。
该方法论围绕三个核心组件协同工作:
1. 基于 LLM 的代码变异
不同于从零生成代码,LLM 会持续重写并优化已有的候选代码。系统利用 LLM 对编程逻辑和领域上下文的理解,结合研究思路和性能反馈,进行智能化修改和改进。
2. 树搜索导航
代码生成过程被嵌入到树搜索算法中,以系统化方式探索庞大的软件解空间。搜索过程在「利用」(集中改进已有的优质解)和「探索」(寻找全新方法)之间取得平衡,使用了一种受 AlphaZero 启发的 PUCT 算法变体。
3. 研究思路的融合
该系统的一大特色是能够通过多种渠道引入外部知识:
- 直接注入来自科学论文和教材的研究思路
- 利用如 Gemini Deep Research 等工具生成 LLM 研究见解
- 程序化地重组已有成功方案,形成混合策略
该系统在 Kaggle playground 竞赛中开发与迭代,因其具有快速迭代周期和清晰的人类表现基准,成为理想的测试平台。
跨科学领域的主要成果
基因组学:单细胞 RNA 测序
在从单细胞 RNA 测序数据中去除技术批次效应同时保留生物学信号的挑战性任务中,该系统发现了 40 种新方法,其性能优于 OpenProblems 排行榜上所有已发表的方法。性能最佳的方法 BBKNN (TS) 通过将 ComBat 校正的 PCA 嵌入与批次平衡 K 近邻相结合,比现有最佳方法(ComBat)提高了 14%。
图 2:树搜索进展图,显示了迭代过程中性能的提高,并在突破点处标注了关键算法创新。该系统发现了优化批次感知图构建和实现 ComBat 基因表达校正的方法。
地理空间分析:卫星图像分割
在使用 DLRSD 数据集进行卫星图像的密集像素级语义分割时,该系统的前三名解决方案显著优于最近的学术论文,平均交并比分数大于 0.80。这些解决方案基于现有架构(UNet++、SegFormer),但优化了它们与强大的预训练编码器和广泛数据增强策略的集成。
图 3:卫星图像分割结果示例,显示原始图像(顶行)、真实掩模(中行)和系统预测(底行)。系统成功分割了包括机场、跑道、飞机和基础设施在内的各种特征。
神经科学:全脑神经活动预测
在斑马鱼大脑中建模超过 70,000 个神经元的活动(ZAPBench)时,系统生成的最佳模型在多步预测方面优于所有基线,并且训练速度比竞争视频模型快几个数量级。该系统成功地将生物物理神经元模拟器(Jaxley)整合到高性能解决方案中。
时间序列预测
在涵盖 28 个不同时间序列数据集的 GIFT-Eval 基准测试中,该系统在多个数据集上的性能优于排行榜。值得注意的是,它从头开始创建了一个统一的预测库,该库能自适应地配置到不同的数据集,并将时间序列分解为各个组成部分。
图 4:系统发现的成功预测方法的分布。梯度提升方法(GBM)和集成方法在各种预测任务中是最常成功的策略。
数值分析:复杂积分
对于评估具有无限限度的振荡积分(其中 scipy.integrate.quad () 等标准算法完全失效)时,演化出的代码正确评估了 19 个留出积分中的 17 个,误差在 3% 分数误差之内。该解决方案实现了复杂的数学启发式方法,包括域划分和欧拉变换以加速级数。
技术创新:研究思路与重组
一个关键的创新是研究思路的系统集成及其智能重组。该系统可以分析不同方法的核心原理,并合成创建混合方法的指令。
图 5:方法重组结果分析,显示原始方法与其组合版本之间的性能比较。绿色条表示成功的改进,红色条表示性能下降,而蓝色表示原始方法的性能。
总结
这项研究表明,AI 不仅能够实现自动化,还能在多个科学领域系统性地超越人类在科研软件开发中的表现。系统在生物信息学、流行病学、地理空间分析、神经科学和数值分析等领域中,持续取得专家级,甚至超越人类水准的成果,显示出其广泛的适用性。
该方法标志着科研软件开发范式的转变:从「一次性代码生成」走向「以可量化科学目标为导向」的迭代式、搜索驱动的软件进化。通过将开发周期从「数周甚至数月」缩短至「数小时或数天」,这一系统有效解决了科研中的关键瓶颈问题,有潜力加速所有以可量化指标衡量的计算研究。
系统在大规模解空间中进行系统化探索,融合多元研究思路,并能大海捞针般的找出高质量解决方案。这种能力预示着它可能从根本上改变科研软件的开发方式:
既能让更多研究者平等获取先进的分析工具,也能不断拓展科学探索在计算能力上的边界。
..
#HyperTASR
港大InfoBodied AI团队首发xx表征新范式,构建任务自适应的感知框架
本文的共同第一作者为香港大学 InfoBodied AI 实验室的博士生孙力和吴杰枫,合作者为刘瑞哲,陈枫。通讯作者为香港大学数据科学研究院及电机电子工程系助理教授杨言超。InfoBodied AI 实验室近年来在 CVPR,ICML,Neurips,ICLR 等顶会上有多项代表性成果发表,与国内外知名高校,科研机构广泛开展合作。
,时长00:59
- 标题:HyperTASR: Hypernetwork-Driven Task-Aware Scene Representations for Robust Manipulation
- 作者:Li Sun, Jiefeng Wu, Feng Chen, Ruizhe Liu, Yanchao Yang
- 机构:The University of Hong Kong
- 原文链接: https://arxiv.org/abs/2508.18802
出发点与研究背景
在xx智能中,策略学习通常需要依赖场景表征(scene representation)。然而,大多数现有多任务操作方法中的表征提取过程都是任务无关的(task-agnostic):
无论xx智能体要 “关抽屉” 还是 “堆积木”,系统提取的特征的方式始终相同(利用同样的神经网络参数)。
想象一下,一个机器人在厨房里,既要能精准抓取易碎的鸡蛋,又要能搬运重型锅具。传统方法让机器人用同一套 "眼光" 观察不同的任务场景,这会使得场景表征中包含大量与任务无关的信息,给策略网络的学习带来极大的负担。这正是当前xx智能面临的核心挑战之一。
这样的表征提取方式与人类的视觉感知差异很大 —— 认知科学的研究表明,人类会根据任务目标和执行阶段动态调整注意力,把有限的感知资源集中在最相关的物体或区域上。例如:找水杯时先关注桌面大范围区域;拿杯柄时又转向局部几何细节。
那么,xx智能体是否也可以学会 “具备任务感知能力的场景表征” 呢?
创新点与贡献
1. 提出任务感知场景表示框架
我们提出了 HyperTASR,这是一个用于提取任务感知场景表征的全新框架,它使xx智能体能够通过在整个执行过程中关注与任务最相关的环境特征来模拟类似人类的自适应感知。
2. 创新的超网络表示变换机制
我们引入了一种基于超网络的表示转换,它可以根据任务规范和进展状态动态生成适应参数,同时保持与现有策略学习框架的架构兼容性。
3. 兼容多种策略学习架构
无需大幅修改现有框架,即可嵌入到 从零训练的 GNFactor 和 基于预训练的 3D Diffuser Actor,显著提升性能。
4. 仿真与真机环境验证
在 RLBench 和真机实验中均取得了显著提升,验证了 HyperTASR 在不同表征下的有效性(2D/3D 表征,从零训练 / 预训练表征),并建立了单视角 manipulation 的新 SOTA。
HyperTASR 概述
在这项工作中,我们提出了 HyperTASR —— 一个基于超网络的任务感知场景表征框架。它的核心思想是:xx智能体在执行不同任务、处于不同阶段时,应该动态调整感知重点,而不是一直用一套固定的特征去看世界。
- 动态调节:根据任务目标和执行阶段,实时生成表示变换参数,让特征随任务进展而不断适配。
- 架构兼容:作为一个独立的模块,可以无缝嵌入现有的策略学习框架(如 GNFactor、3D Diffuser Actor)。
- 计算分离:通过超网络建立 “任务上下文梯度流(task-contextual gradient)” 与 “状态相关梯度流(state- dependent gradient)” 的分离,大幅提升学习效率与表征质量。
换句话说,HyperTASR 让xx智能体在执行任务时,像人类一样 “看得更专注、更聪明”。
任务感知的场景表示 (Task-Aware Scene Representation)
传统的xx智能体操作任务(Manipulation)学习框架通常是这样的:
1. 从观测
提取一个固定的场景表征
2. 在动作预测阶段,再利用任务信息
,共同预测执行的动作:
这种做法的局限在于:表征提取器始终是任务无关的。不管是 “关抽屉” 还是 “堆积木”,它提取的特征都一样。结果就是:大量无关信息被带入策略学习,既降低了策略学习的效率,也增加了不同任务上泛化的难度。
受到人类视觉的启发,我们提出在表征阶段就引入任务信息:
这样,场景表示能够随任务目标与执行阶段动态变化,带来三个好处:
- 更专注:只保留与当前任务相关的特征
- 更高效:过滤掉无关信息
- 更自然:和人类逐步完成任务时的视觉注意模式一致
超网络驱动的任务条件化表示 (Hypernetwork-Driven Task-Conditional Representation)
HyperTASR 的详细结构如 Figure 2 所示。为了实现任务感知,我们在表征提取器后加入了一个 轻量级的自编码器:
其中:
-
- :编码器,
-
- :编码器参数
-
- :解码器
-
- :原始表征,
-
- :任务感知表征
引入自编码器的一大优势在于,自编码器适用于不同的场景表征形式(2D/3D 表征都有对应的自编码器),另外自编码器可以维持原来场景表征的形式,无须调整后续策略网络的结构。
关键在于:
不是固定的,而是由超网络根据任务与执行状态动态调节的:
这里:
-
- 任务目标(如 “拧上绿色瓶子”)
-
- 任务进展编码(task progression)
-
- 由超网络
-
- 生成的动态参数
这样,场景表征不仅会随任务不同而变化,也会在任务的执行过程中不断动态迁移。
这种设计的优势:
1. 梯度分离:任务上下文与状态相关信息在梯度传播中分离,增强可解释性和学习效率
2. 动态变换:不是简单加权,而是真正改变表征函数,使得表征更加灵活
实验验证
HyperTASR 的另一个优势是模块化、易集成。这种 “即插即用” 的设计让 HyperTASR 可以同时增强 从零训练和预训练 backbone 两类方法。我们分别把它嵌入到两类主流框架中进行验证:
1.GNFactor(从零训练):使用 3D volume 表征
2.3D Diffuser Actor(基于预训练):使用 2D backbone 提取特征再投影到 3D 点云
我们只使用了行为克隆损失(Behavior Cloning Loss)作为我们网络的训练损失。
仿真实验
在仿真环境 RLBench 中的 10 个任务上进行训练,实验结果如 Table 1 所示:
- 集成到 GNFactor 后,在无需特征蒸馏模块的情况下(训练无需额外的监督信息),成功率超过基线方法 27%;
- 集成到 3D Diffuser Actor 后,首次让单视角操作成功率突破 80%,刷新纪录。
在此基础上,我们进一步通过网络的梯度进行了注意力可视化:
从 Figure 3 中我们可以观察到:
- 传统方法的注意力往往分散在背景和无关物体;
- HyperTASR 的注意力始终集中在任务相关的物体上,并随着任务进度动态变化。
另外,我们进行了消融实验,证明了 HyperTASR 设计中,引入任务进展的合理性,以及证明了使用超网络相比于直接利用 Transformer 将任务信息融合到场景表征里,能够获得更大的性能提升。
真机实验
我们采用 Aloha 进行了真机 manipulation 实验。如 Table 2 所示,在 6 个实际任务中,HyperTASR 在仅每个任务 15 条示教样本的有限条件下达到了 51.1%,展示了在真实环境操作中的强泛化能力。
一些真机实验对比结果如下:
参考
[1] Ze, Yanjie, et al. "Gnfactor: Multi-task real robot learning with generalizable neural feature fields." Conference on robot learning. PMLR, 2023.
[2] Ke, Tsung-Wei, Nikolaos Gkanatsios, and Katerina Fragkiadaki. "3D Diffuser Actor: Policy Diffusion with 3D Scene Representations." Conference on Robot Learning. PMLR, 2025.
.
#iPhone 17
狂登热搜,iPhone 17「挤爆牙膏」!5999起价,AirPods变身同声传译
苹果年度科技盛宴如约而至,iPhone家族再添新丁!从超薄iPhone Air到性能怪兽iPhone 17 Pro Max,再到全能选手AirPods Pro 3,这些创新能否再次定义智能设备的未来?
一年一度的苹果「科技届春晚」,来了!
从性能狂飙的A19 Pro芯片,到全球首款极致轻薄的iPhone Air,再到全新三摄融合的iPhone 17 Pro Max,以及支持心率监测与实时翻译的AirPods Pro 3……
苹果用一场堪称「硬件风暴」的发布会,把AI、影像、芯片、续航、设计推向了前所未有的高度。
内容速看
- iPhone Air颜值爆表,薄得不行。但实在装不下实体SIM卡槽,中国联通不得不给这款手机开绿灯办理eSIM。
- iPhone 17终于配备了高刷屏,相较上一代iPhone 16升级幅度大且全面,是这一代iPhone当之无愧的「性价比之王」。
- iPhone 17 Pro和iPhone 17 Pro Max仍然是当之无愧的新机皇,全新一体化机身更省电了。
- A19 Pro纸面性能数据爆表,只等新机抵达各大数码评测博主手里,然后屠榜了。
- Apple Watch升级较为常规,但健康管理和预警可能救你一命!
- AirPods Pro 3带来了一项革命性的功能——实时翻译:可以捕捉环境音中的人声并翻译后直接通过耳机播放,让你和外国人无缝交流。
感兴趣的朋友,可以关注一下抢购时间:
·现在,AirPods Pro 3即可开始预购,9月19日正式发售,每人限购6副。
· 9月11日早9点,Apple Watch开始接受预购,9月19日正式发售,所有款式每款每人限购6只。
·9月12日晚8点,iPhone开始接受预购,9月19日正式发售,所有机型每款每人限购2部
苹果的股价在一路暴跌
iPhone 17家族登场
苹果挤爆牙膏
iPhone Air:史上最薄,国行版eSIM来了
首先,是苹果有史以来最薄的手机——iPhone Air。
全新iPhone Air仅5.6毫米厚、重165克,虽然如此纤薄,iPhone Air的性能一点也不差。
它配备了6.5英寸显示屏和A19 Pro芯片,显示屏拥有120Hz的ProMotion。
iPhone Air在户外使用时拥有高达3000尼特的峰值户外亮度——这也是iPhone有史以来最高的亮度。
面对如此薄的机身,iPhone Air的框架由钛金属打造,背面和正面都有超瓷晶(Ceramic Shield)保护。
苹果宣称其比以往的任何iPhone都耐用。
iPhone Air背面有一个明显的突起平台,用于容纳相机、扬声器和芯片。
这个设计扩展了电池空间,使其能够提供全天的电池续航能力。
iPhone Air提供四种配色:太空黑、云白、浅金和天蓝。
价格分别为7999元、9999元和11999元(256G、512G、1TB)。
9月12日开始预售,并于9月19日开始发售。
iPhone Air引入了全新的Center Stage(居中)前置相机。
这是iPhone上首款方形前置传感器,具备更广视野,最高可拍摄1800万像素照片。
用户不再需要为横向自拍而旋转手机——竖握iPhone即可拍摄纵向或横向的照片与视频。
前置相机还支持4K HDR的视频录制,可同时使用前后摄录制。
背面是一个4800万像素融合式摄像头系统,按照苹果的说法,它相当于将多个摄像头融合一体。
这款定制主摄支持28mm与35mm焦段,2.0µm的四合一像素传感器配合传感器位移式光学图像防抖(OIS)功能,在低光环境下表现出色。
用户还可使用2倍长焦功能来拉近与拍摄对象的距离,该镜头搭载了经过优化的光像引擎(Photonic Engine)。
为iPhone Air设计的新图像处理管线具有与多摄像头系统同级的焦点控制功能,可实现新一代人像拍摄,自动捕捉景深信息,供用户后期在照片app中将照片转为人像模式。
iPhone Air 还支持最新一代摄影风格,包括新的「珠光」风格,可提亮肤色,并赋予整张照片明艳活力。
左右滑动查看
iPhone Air可拍摄4K60 fps杜比视界视频,并支持运动模式。视频声音则采用空间音频录制。
iPhone Air能设计得如此轻薄,得益于A19 Pro、N1和C1X三款芯片。此外,iPhone Air的能效也创下了iPhone历来新高。
这使得iPhone Air拥有不错的游戏性能,甚至足以驱动生成式 AI 模型在设备端顺畅运行。
,时长00:09
iPhone Air搭载了Apple设计的全新网络无线芯片N1,支持Wi-Fi 7、蓝牙 6和Thread技术。iPhone Air还搭载了由Apple设计的新版蜂窝调制解调器C1X,速度较C1提升至最多2倍。
有了这些最新芯片加持、为电池留足空间的内部架构加上软件优化,让iPhone Air电池能效表现成为亮点。
不过,iPhone Air的电池容量仅3000毫安时出头,具体续航时间还要实际体验。
值得一提的是,iPhone Air是首款在所有地区都不支持实体SIM卡的iPhone。
按照苹果的说法,采用eSIM设计可以节省内部空间,有助于实现极致轻薄的形态。
有意思的是,根据iPhone Air国行页面显示,iPhone Air目前似乎仅支持中国联通,而且需要前往营业厅进行身份验证。
苹果为最新的iPhone Air推出了一系列新配件,包括:
- iPhone Air MagSafe保护壳,提供霜雾色和暗影色两种配色。
- 纤薄轻盈的iPhone Air防护边框提供四种与机身同色系的色彩,完美贴合机身四周。
- 斜挎挂绳采用100%再生纱线制造,具有舒适的垂坠感,内嵌的柔性磁体和不锈钢滑扣可轻松调节长度。
- iPhone Air MagSafe电池,具有轻薄设计,可无缝贴合设备背部。与iPhone Air配合使用时,可提供长达40小时的视频播放时间。
左右滑动查看
你觉得这款全新的手机怎么样?是你的菜吗?
iPhone 17 Pro:首次装上均热板,最耐用「拍照神器」
这次的iPhone 17 Pro从里到外,采用了全新设计:
全新外壳、全新散热、全新芯片、全新屏幕、全新续航、全新相机、全新的视频处理能力
同样,颜色也是全新的三款:银色、星宇橙色和深蓝色。
外观与结构全面焕新,线条更利落,手感与质感同步升级,「从里到外都换了代」
性能最强的Pro系列,依旧是「iPhone中的iPhone」:
- 最新的航空级铝合金机身:这代设计的核心,让出更大空间,让整机在强度、续航与可靠性上全面进阶。
- 最耐用的背板:传统玻璃升级为Ceramic Shield(超瓷晶)材质,抗跌耐刮能力进一步提升
- 最好的硬件:最强的摄像头、最强的芯片A19 Pro
- 最强的视频处理能力:满足专业拍摄,本次发布全程由iPhone 17 Pro Max拍摄
为释放性能与深度优化电池布局,苹果这次采用铝合金一体式机身。
全新的机身设计不仅腾出了更多的空间,前凸的摄像头设计巧妙融合了天线,保障了信号和视频性能。
航空级铝合金不仅格外轻盈,散热比之前使用的金属钛快20倍,长时间用手机不怕烫。
背后技术是铝制机身+vapor chamber(均热板)技术,把核心元件产生的热量主动导出,大面积扩散与散热,带来更持续稳定的性能与更舒适的温感。
该散热系统采用装有去离子水的液冷腔,可将热量导出整个系统
此外,新机身更好的保护背板,加上新的Ceramic Shield(超瓷晶)材质,造出来迄今最耐用的iPhone。
这次的iPhone 17 Pro采用最新的3纳米A19 Pro芯片,速度相比上一代的A18 Pro最高提升30%,性能更强。
再加上更大的内存,以及硬件加速光追技术,iPhone 17 Pro上玩游戏更带劲。
新机身,腾出了空间,电池更大,加上新的自适应电池管理,iPhone 17 Pro Max成为史上最耐用的手机:
视频播放最长可达39小时,更长的续航为旅行、通勤与外拍提供了真正的「全天候」底气。
iPhone 17 Pro和iPhone 17 Pro Max配有专业级相机。
后置三枚摄像头采用前凸设计:
全系均为Fusion(融合)相机,4800万像素,借助多帧融合在不同光照环境下稳态输出解析力与动态范围。
各后置摄像头具体参数如下:
全新Fusion长焦镜头,新增8×光学变焦。
全新的四棱镜远摄镜头,支持最长达200mm等效焦距,是iPhone有史以来最远的远摄焦段。
传感器面积增大56%,在弱光、运动场景中具备更高的进光与更好的信噪比表现。
结合深度学习和机器学习,苹果还升级了光像引擎,数码变焦最高可达40倍。
一部iPhone 17 Pro顶八颗镜头
前置摄像头则为1800万像素,并支持Center Stage(人物自动居中),而且视角更广、分辨率更高。
苹果首次支持前后置摄像头同时摄影,见证精彩的历史瞬间,同时录下自己的瞬间反应。
这次的发布会的全部视频由iPhone拍摄。其中17 Pro Max支持更多专业级摄像需求
· 支持ProRes RAW采集,后期空间更大、成片质感更专业。
· 新增Genlock(外部同步锁相)与视频同步功能,便于多机位协作拍摄与专业片场流程对接,画面/时间轴轻松对齐。
……
整体来看,iPhone 17 Pro的升级点集中在「结构散热、性能平台、影像系统与耐用续航」四大方向:
- 均热板+铝机身的热路设计改善了长时间高负载的稳定性;
- A19 Pro带来更强的CPU/GPU峰值与持续性能;
- 三摄4800万像素的全系一致性与更大底传感器,配合新长焦把远摄与夜拍拉齐到「主摄级」水准;
- 而超瓷晶前后双面与抗反射镀膜,则把「看得清、用得住」的体验落到了日常每一秒。
此外,还推出了新的手机保护壳等配件;iOS系统支持更多AI功能;iPhone 17 Pro Max提供最高2TB容量。
国内,iPhone17 Pro起售价为8999元;iPhone17 Pro Max起售价为9999元。
iPhone 17:有高刷,是真正的性价比之选
iPhone 17相较于上一代iPhone 16,各方面都进行了相当有诚意的大幅度升级。
iPhone 17本次带来了五种配色:黑色、白色、薰衣草紫色、鼠尾草绿色、青雾蓝色。
看起来和上一代的iPhone 16差不多?
如果你观察仔细,可以发现,新iPhone 17边框变窄了,因而屏幕从6.1英寸增大到了6.3英寸。
本代iPhone 17终于成为了真正的性价比之选,不再只是便宜的遮羞布。
其中最大的原因是,iPhone 17终于用上了OLED高刷屏。
1-120Hz的ProMotion自适应刷新率技术加持,补上了前代基础款最大的短板。
户外屏幕最大亮度也从上一代的2000尼特增加到3000尼特,强光下屏幕能看得更清楚了。
iPhone 17使用的芯片是A19,而不是其他三款的A19 Pro,纸面数据上差了1个GPU核心,真实性能差距有待真机测试。
iPhone 17也无缘iPhone 17 Pro和Pro Max的VC均热板,散热能力也会导致性能释放存在客观差距。
但不要过于担心,不是A19弱,而是A19 Pro太强,除非是玩大型游戏,否则日常使用中大概率不会感受到明显的性能差距。
此外,iPhone 17的续航也从上一代的22小时视频播放增加到30小时视频播放,大幅增加了36%。
充电速度也直接从上一代的20W来到了40W。
摄像头也有了很大升级。
后置摄像头方面,上一代的那颗1200万像素超广角镜头,这一代升级成了4800万像素融合式超广角镜头。
前置摄像头方面升级巨大,从1200万的前摄直接升级到了和iPhone 17 Pro Max同款的1800万像素的Center Stage前置摄像头。
随之带来的同步双拍功能更是王炸,让你可以同时使用前摄和后摄,可以在演唱会现场录制舞台Vlog的同时,与你的好朋友保持视频通话。
起步存储容量相比上一代也提升到256GB了。毕竟,128GB如今实在是捉襟见肘了。
iPhone 17国行256GB版本售价5999元,512GB版本售价7999元。
加量不加价!不知道你觉得这6000块值不值呢?
四款全新芯片,性能直接拉满
C1X:能效最强的调制解调器
Apple设计的新版蜂窝调制解调器C1X。
C1X的速度较C1提升至最多2倍,运行同样的蜂窝网络技术时比iPhone 16 Pro的调制解调器速度更快,同时整体能耗降低30%。
这使得C1X刷新了iPhone调制解调器的能效纪录。
N1:自研网络无线芯片
这枚Apple设计的全新网络无线芯片支持Wi-Fi 7、蓝牙 6和Thread技术。
除了驱动最新一代无线连接技术,N1芯片还改善了个人热点和隔空投送等功能的整体表现和可靠性。
A19:比上一代至少快了20%
基础款iPhone 17将搭载A19系统芯片,而其他型号搭载A19 Pro。
这些芯片可能采用了台积电最新的第三代纳米N3P工艺节点。
A19拥有六个CPU核和五个GPU核。
六个CPU核包含四个效率核心和两个性能核心,而GPU在硬件加速光线追踪、网格着色和MetalFX上采样方面继续取得进展。
左右滑动查看
GPU性能上,A19比上一代A18快20%,而iPhone型号越老,提速效果越明显。
A19 Pro:手机上跑大模型
A19 Pro是手机中最快的CPU。在CPU方面,苹果继续推动单线程性能。
这款强劲的A19 Pro配备了全新的6核CPU,能提升日常任务的性能和效率。
苹果还将能效核心的末级缓存提升了50%,专为提升日常处理各项任务时的能源效率。
图形处理器(GPU)在A19 Pro上也迎来了重大升级。
苹果推出了第二代动态缓存(Dynamic Caching)架构, 将16位浮点运算速率翻了一番,并构建了全新的统一图像压缩技术。
不仅如此,GPU的另一项重大更新与人工智能(AI)相关:将神经网络加速器(Neural Accelerators)内置于每个GPU核心之中, 带来了高达A18 Pro三倍的GPU峰值算力。
这让iPhone拥有了MacBook Pro级别的算力,能够完美胜任GPU密集型的AI工作负载。
AirPods Pro 3
私人教练+同声传译,终极音频体验
这次全新升级的AirPods Pro 3,可以说是一个集终极音频、私人健康管理和跨语言沟通于一体的超级个人智能设备。
首先,是作为一个耳机的根本——音质。
在全新「多端口声学架构」的加持下,AirPods Pro 3能精准控制进入耳内的气流,营造出众的空间音频聆听体验。
配合新一代自适应均衡功能,低音响应和声场都得到了增强——用户不仅能听清每一种乐器,而且人声也更为生动清晰。
其次,是堪称全球顶尖的主动降噪功能。
在降噪效果上,AirPods Pro 3最高达上一代产品的2倍,是初代产品的4倍。
这得益于超低噪声麦克风、先进的计算音频技术,以及内部注入泡棉的新款耳塞套带来的更强被动隔音效果。
续航方面,开启主动降噪模式后的AirPods Pro 3,听歌时长最长可达8小时,比上一代提升了整整33%。
左右滑动查看
第三,是首次内置了苹果最小的定制心率传感器!
通过定制的光电容积描记法(PPG)传感器,AirPods Pro 3能以每秒256次的频率发射不可见的红外光脉冲,来测量血流中的光吸收量。
结合AirPods中的加速感应器、陀螺仪、GPS传感器融合技术,以及iPhone上全新的设备端AI模型,你可以:
- 可以开启多达50种不同的体能训练
- 追踪心率和卡路里消耗
- 闭合「活动」圆环,并在「健身」app中赢取奖章
最后,是由苹果智能驱动的、革命性的实时翻译功能!
启用后,对方说的话就会被翻译成你的首选语言,并通过AirPods播放。
而你只需将iPhone横屏放置,就可以实时向对方显示你所说话语的翻译文本。
当两人都戴着AirPods时,主动降噪功能会降低对方说话的物理音量,让你在保持交流的同时,更容易专注于听取翻译内容。
目前,实时翻译功能支持英语、法语、德语、葡萄牙语和西班牙语,并将在今年年底前新增四种语言:意大利语、日语、韩语和中文(简体)。
Apple Watch Series 11
升级5G,新增高血压预警
Apple Watch Series 11带来了两项的开创性功能:高血压通知和睡眠分数。
首先,让我们聚焦本次更新的核心亮点,也是最具突破性的一项功能——高血压通知。
利用先进的光学心率传感器,Apple Watch Series 11会分析你的血管对心跳的细微反应,并通过一个基于超过10万名参与者的海量数据训练而成的机器学习算法,在后台持续地识别高血压的迹象。
一旦检测到持续的迹象,它会立即向你发送通知,提醒关注自己的血压状况。
Apple Watch Series 11带来的第二个重磅功能,就是全新的睡眠分数。
这个分数综合了影响睡眠质量的多个核心维度:睡眠时长、入睡规律、夜间清醒、睡眠阶段。
在你睡着之后,Apple Watch会利用强大的传感器采集心率、手腕温度、血氧和呼吸频率等数据,甚至发现可能的睡眠呼吸暂停。
到了早上,「睡眠」app会在Apple Watch上提供一个总分和评级,并清晰地分解出各项关键因素,让你知道应该优先改善哪个方面来提升睡眠。
强大的功能,离不开坚实的硬件支撑。
在这一方面,Apple Watch Series 11也得到了全面地升级。
- 电池续航延长至最长24小时;同时支持快充,15分钟即可充入长达8小时的电量
- 铝合金款的表面抗刮性直接提升至2倍!这得益于苹果在本就坚固的Ion-X玻璃之上,增加了一层自研的陶瓷涂层,通过物理气相沉积工艺实现了在原子层面与玻璃的紧密结合
- 采用了更快的5G网络,以及重新设计的多频段蜂窝天线——在必要时会同时启用两个系统天线,显著提升信号强度
参考资料:HJNK 25%
https://www.apple.com/apple-events/event-stream/
..
#LLM-based Agentic Reasoning Frameworks
Agent时代来临:一文读懂大模型Agentic Reasoning框架
近年来,大型语言模型(LLM)的推理能力取得了显著进展,催生了众多展现出接近人类水平性能的LLM-based Agent系统。然而,这些系统虽然都以LLM为核心,但其推理框架在引导和组织推理过程上却各有千秋。
本文介绍一篇全面的综述论文,它对基于LLM的 Agentic Reasoning Frameworks (智能推理框架)进行了系统性的梳理和分析。研究者们提出了一个统一的分类法,将现有方法分解为 单智能体 、 基于工具 和 多智能体 三大类,并深入探讨了这些框架在科学发现、医疗、软件工程、社会模拟等多个领域的应用。该综述旨在为研究社区提供一个全景式的视图,帮助理解不同框架的优势、适用场景和评估方法。
- 论文标题: LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios
- 作者: BINGXI ZHAO ,LIN GENG FOO, PING HU , CHRISTIAN THEOBALT,HOSSEIN RAHMANI ,JUN LIU
- 机构: 北京交通大学、兰卡斯特大学、马克斯·普朗克计算机科学研究所、电子科技大学
- 论文地址: https://arxiv.org/abs/2508.17692
研究背景与意义
随着LLM的爆发式增长,学术界和工业界都在积极探索如何利用LLM构建能够执行复杂、多步推理任务的智能体(Agent)。如下图所示,自2023年以来,关于LLM Agent框架的出版物数量呈快速增长趋势,显示了该领域日益增长的重要性。
然而,这种快速发展也带来了挑战:不同研究在框架设计、模型改进和技术实现上的界限变得模糊,使得横向比较不同项目的优劣变得困难。因此,一篇能够系统性地总结现有Agentic Reasoning框架的进展和应用场景的综述文章显得尤为及时和必要。它不仅能帮助研究者厘清概念,还能为Agentic框架的标准化和安全发展提供清晰的路线图。
Agentic Reasoning框架分类
这篇综述的核心贡献之一是提出了一个清晰的Agentic Reasoning框架分类法。作者将复杂的Agent系统解构为三个循序渐进的类别:单智能体方法、基于工具的方法和多智能体方法。
这三个层次共同构成了一个完整的Agentic Reasoning体系:
- 单智能体方法 (Single-agent Methods) :专注于增强单个智能体的内在推理能力。
- 基于工具的方法 (Tool-based Methods) :通过调用外部工具来扩展智能体的能力边界。
- 多智能体方法 (Multi-agent Methods) :通过多个智能体之间的不同组织和互动范式,实现更灵活、更强大的集体推理能力。
单智能体方法
单智能体方法旨在从“外部引导”和“内部优化”两个角度提升单个Agent的认知和决策能力。
提示工程 (Prompt Engineering)
提示工程通过精心设计的提示来引导Agent的推理过程,主要包含四种技术:
- 角色扮演 (Role-playing) :为Agent分配特定角色(如“你是一位专业的AI研究员”),以激发其特定领域的表现。
- 环境模拟 (Environmental-simulation) :将Agent置于一个精心设计的虚拟环境中,使其能够利用多模态信息或外部能力进行推理。
- 任务描述 (Task-description) :清晰地重构和表达任务,明确目标、约束和输出格式。
- 上下文学习 (In-context Learning) :在推理前或推理中为Agent提供若干示例(few-shot examples),引导其学习。
自我提升 (Self-improvement)
自我提升机制使Agent能够通过反思和自主学习来动态调整其策略。主要有三种范式:
- 反思 (Reflection) :Agent分析已完成的轨迹,生成文本摘要并存入其上下文,为下一步推理提供参考。
- 迭代优化 (Iterative Optimization) :在单个任务中,Agent生成初始输出,与既定标准或反馈进行比较,并不断迭代优化,直到满足终止条件。
- 交互式学习 (Interactive Learning) :Agent与动态环境互动,经验(如发现新物品)可以触发其高层目标的更新,从而实现持续、开放式的学习。
基于工具的方法
当面对需要与外部环境进行复杂交互的场景时,简单的单实体工具抽象已不足够。论文将基于工具的推理流程分解为三个基本阶段:工具集成、工具选择和工具利用。
- 工具集成 (Tool Integration) :研究如何将工具整合到Agent的推理过程中,主要有API、插件和中间件三种模式。
- 工具选择 (Tool Selection) :解决从工具箱中为当前任务选择最合适工具的问题,分为自主选择、基于规则选择和基于学习选择。
- 工具利用 (Tool Utilization) :关注如何有效操作选定的工具以生成期望的输出,包括顺序使用、并行使用和迭代使用。
多智能体方法
对于需要多样化专业知识或复杂问题分解的任务,多智能体系统(Multi-agent Systems, MAS)应运而生。其核心原则是“分而治之”,但挑战在于实现有效的协调。论文从组织架构和个体交互两个维度对此进行分析。
- 组织架构 (Organizational Architectures) :
- 中心化 (Centralized) :由一个中心Agent负责全局规划、任务分解和结果合成,协调性强但存在性能瓶颈。
- 去中心化 (Decentralized) :所有Agent地位平等,通过点对点通信进行决策,鲁棒性好但效率可能较低。
- 层级化 (Hierarchical) :将Agent组织成树状或金字塔结构,上层负责战略规划,下层负责具体执行,适用于可清晰分解的任务。
- 个体交互 (Individual Interactions) :
- 合作 (Cooperation) :所有Agent以最大化集体利益为共同目标。
- 竞争 (Competition) :Agent追求个体利益最大化,可能存在冲突。
- 协商 (Negotiation) :在合作与竞争之间取得平衡,有利益冲突的Agent通过沟通和妥协达成共识。
Agentic Reasoning的应用场景
该综述详细探讨了Agentic Reasoning框架在多个前沿领域的应用,展示了其巨大的潜力。
科学发现
在生物化学领域,Agent系统被用于药物发现、基因实验设计、化学合成等。例如,BioDiscovery-Agent框架通过迭代设计基因扰动实验,并整合先验知识来指导其推理上下文,从而高效识别基因功能。
医疗健康
在医疗领域,Agent系统可用于辅助诊断、临床管理和环境模拟。例如,AIME框架通过两个“自博弈”循环进行持续优化:内部循环中,医生Agent根据评论家模块的实时反馈优化其在模拟对话中的行为;外部循环中,优化的模拟对话数据被用于微调推理系统。
软件工程
在软件工程中,Agent系统能够处理代码生成、程序修复和全周期软件开发。下表展示了多种Agentic编码框架在主流代码生成基准测试上的性能(Pass@1),可以看出基于Agent的框架(如AgentCoder, MetaGPT)在GPT-4等强大基础模型上,性能显著优于传统的提示方法。
社会与经济模拟
Agentic框架为模拟复杂的社会和经济动态提供了强大的工具。在社会模拟中,每个个体都由一个LLM-based Agent驱动,拥有独特的个人资料、目标和动态更新的上下文。通过与他人和环境的互动,Agent可以独立决策,从而在群体层面涌现出复杂且真实的社会现象。
下表汇总了不同的社会模拟方法及其规模。
总结与展望
这篇综述论文 首次提出了一个统一的方法论分类法,系统性地阐明了Agentic框架内的核心推理机制和方法。通过将Agent系统分解为单智能体、基于工具和多智能体三个层次,为分析和理解该领域提供了清晰的视角。
论文的价值在于:
- 系统的知识梳理:为快速发展的LLM Agent领域提供了第一个系统的、框架层面的分类和综述。
- 统一的形式化语言:引入了一套形式化语言来描述推理过程,清晰地展示了不同方法对关键步骤的影响。
- 广泛的应用场景分析:深入研究了Agent框架在多个关键领域的应用,并对代表性工作进行了深入分析。
- 指明未来方向:论文最后展望了未来的六个研究方向,包括推理的可扩展性与效率、开放式自主学习、动态推理框架、推理中的伦理与公平、安全性以及可解释性等,为后续研究提供了宝贵的指导。
CV君认为,这篇综述是所有希望了解、研究或应用LLM Agent的研究人员和工程师的必读文献。它不仅全面总结了现有工作,更重要的是提供了一个结构化的思维框架,帮助研究人员更好地驾驭这个充满机遇和挑战的新兴领域。
.
#克服 LLM 推理中的不确定性
刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相
真正的元凶是缺乏批次不变性。
就在今天,由 OpenAI 前 CTO Mira Murati 成立于今年 2 月的人工智能初创公司 Thinking Machines Lab,发了第一篇文章 ——《克服 LLM 推理中的不确定性》(Defeating Nondeterminism in LLM Inference)。
这篇博客属于 Thinking Machines Lab 新提出的博客栏目 Connectionism,意为「连接主义」。该公司表示:「我们相信,分享才能让科学更好地发展。Connectionism 将涵盖与我们的研究一样广泛的主题:从核函数数值计算到提示工程。Connectionism 这一名称可以追溯到 AI 的早期年代。它曾是 20 世纪 80 年代的一个研究分支,专注于神经网络及其与生物大脑的相似性。」
此外,Thinking Machines Lab 联合创始人、著名技术博主翁荔(Lilian Weng)还在转推中透露了一个消息,Connection Machine,即「连接机」,难道他们的产品要来了?
真是让人期待呢。
地址:https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
博客主要作者为 Horace He,这位 PyTorch 核心开发者于今年 3 月从 Meta 离职,加入了 Thinking Machines。
接下来看博客原文内容。
可复现性(reproducibility)是科学进步的基石。然而,从大语言模型中获得可复现的结果却非常困难。
例如,你可能会发现:即使是向 ChatGPT 提出同一个问题多次,也可能得到不同的回答。这本身并不令人意外,因为语言模型生成结果的过程涉及采样 —— 这个过程会将模型的输出转换为一个概率分布,并以概率方式选择一个 token。
更令人惊讶的是,即使我们将温度参数调到 0(理论上使采样过程变为确定性),大语言模型的 API 在实际中仍然不是确定性的。研究者已经对此有诸多讨论。
即使是在你自己的硬件上,使用开源推理库(如 vLLM 或 SGLang)运行推理,采样过程依然不是确定性的。
为什么大语言模型的推理引擎不是确定性的呢?
一个常见的假设是:浮点运算的非结合性(non-associativity)与并发执行的某种组合会导致不确定性,这取决于哪个并发核心首先完成。我们将这种解释称为「LLM 推理不确定性的『并发 + 浮点』假设」。例如,一篇最近的 arXiv 论文(arXiv:2506.09501)写道:
GPU 中的浮点运算具有非结合性(non-associativity),意味着 (a+b)+c≠a+(b+c),这是由于精度有限和舍入误差所致。这一特性会直接影响 transformer 架构中注意力得分和 logit 的计算,因为在多线程中进行的并行操作,其执行顺序不同会导致结果差异。
虽然这个假设并不完全错误,但它并没有揭示事情的全貌。
例如,即使在 GPU 上,对相同的数据反复进行相同的矩阵乘法运算,每次的结果也都是每一位都相同的。我们确实在使用浮点数,GPU 也确实具有高度并发性。
那为什么在这个测试中却看不到不确定性呢?
要理解大语言模型推理不确定性的真正原因,我们必须更深入地探究。
不幸的是,甚至连「LLM 推理是确定性」的这一说法的定义都很难明确。或许令人困惑的是,以下这些看似矛盾的说法实际上同时都是真实的:
- GPU 上的一些核(kernel)是不确定性的。
- 然而,语言模型在前向传播过程中使用的所有核都是确定性的。
- 此外,像 vLLM 这样的 LLM 推理服务器的前向传播过程,也可以被认为是确定性的。
- 尽管如此,从使用推理服务器的任何用户的角度来看,结果却是不确定性的。
在这篇文章中,我们将解释为什么「并发 + 浮点」假设没有达到目的,揭露 LLM 推理不确定性背后的真正罪魁祸首,并解释如何克服不确定性并在 LLM 推理中获得真正可重复的结果。
原罪:浮点数的非结合性
在讨论不确定性之前,有必要先解释一下为什么存在数值差异。毕竟,我们通常将机器学习模型视为遵循交换律或结合律等结构性规则的数学函数。我们的机器学习库难道不应该提供数学上正确的结果吗?
罪魁祸首是浮点非结合性(floating-point non-associativity)。也就是说,对于浮点数 a、b、c,有:
讽刺的是,正是打破结合律让浮点数变得有用。
浮点数之所以有用,是因为它们允许动态的精度。为了便于解释,我们将使用十进制(而不是二进制),其中浮点数的格式为:尾数 * 10^ 指数。这里还将使用 3 位数字作为尾数,1 位数字作为指数。(注:在计算机科学中,尾数(mantissa,或有效数)是浮点数中用来表示精度的部分,它决定了数字的有效数字位数和精度。)
例如,对于值 3450,我们可以将其精确表示为 3.45*10^3。我们也可以将更小的值(例如 0.486)表示为 4.86*10^-1。这样,浮点数既可以表示非常小的值,也可以表示非常大的值。在科学领域,我们可以说浮点数使我们能够保持有效数的个数恒定。
如果两个浮点数的指数相同,它们的加法运算看起来与整数加法类似。例如:
但是,如果两个浮点数的指数不同,例如 1230 和 23.4,又会发生什么情况呢?理论上,它们的和应该是 1253.4。然而,由于浮点数运算只能保留 3 位有效数字,因此结果会被舍入为 1.25×10³(或 1250)。
表示 1230 需要 3 位有效数字,表示 23.4 也需要 3 位有效数字。但是,这两个数相加的结果(1253.4)却需要 5 位有效数字才能精确表示。因此,我们的浮点数格式必须舍弃最后两位(34)。某种程度上,这相当于我们在相加之前,将原来的 23.4 四舍五入为 20.0。
然而,这样做会导致信息丢失。请注意,只要我们对两个不同阶位(即不同指数)的浮点数进行加法运算,就会发生这种情况。而实际应用中,我们经常需要对不同指数的浮点数进行加法运算。事实上,如果我们能够保证所有浮点数的指数都相同,那么我们完全可以只使用整数!
换句话说,每次以不同顺序相加浮点数时,结果都有可能完全不同。举个极端的例子,对于某个数组,根据加法顺序的不同,其求和结果可能出现 102 种不同的结果。
虽然这是导致输出结果不一致的根本原因,但它并不能直接解释不确定性行为的来源。它也无法帮助我们理解为什么浮点数的加法顺序会改变、这种情况在什么时候发生、以及我们如何避免它。
答案藏在核函数(kernel)的实现方式中。
为什么核函数计算中数字加法顺序并非总是固定的?
如前所述,解释核函数计算中数字加法顺序不一致的一个常见原因是「并发性 + 浮点运算」假设。
该假设认为,如果并发线程的执行顺序是不可预测的,并且累加操作的顺序依赖于并发线程的执行顺序(例如原子加法 /atomic adds),那么最终的累加结果也会变得不可预测。
然而,令人困惑的是,尽管这种现象会导致核函数计算结果的不确定性,但并发机制(以及原子加法)实际上与大型语言模型推理中的不确定性无关!
为了解释真正的罪魁祸首是什么,我们首先需要了解为什么现代 GPU 核函数很少需要使用原子加法。
什么时候需要使用原子加法操作?
GPU 通常会同时在多个核心(即流处理器)上并行运行程序。由于这些核心之间没有内置同步机制,因此如果它们需要相互通信,就会很麻烦。例如,如果所有核心都需要对同一个元素进行累加,就可以使用原子加法(有时也称为 fetch-and-add)。原子加法是不确定性的,结果的累加顺序完全取决于哪个核心先完成计算。
具体来说,假设你要使用 100 个核心对一个包含 100 个元素的向量进行求和(例如 torch.sum ())。虽然可以并行加载所有 100 个元素,但最终我们必须将结果汇总为一个值。一种实现方法是使用某种原子加法操作,硬件保证所有加法操作都会执行,但并不保证执行顺序。
原子加法操作可以确保每个核心的计算结果都能最终反映在总和中。但是,它并不能保证这些结果的累加顺序。累加顺序完全取决于哪个核心先完成计算,这是一种不确定性行为。
因此,多次执行相同的并行程序可能会产生不同的结果。这通常就是人们所说的不确定性,即,使用完全相同的输入数据执行两次相同的程序,但最终结果却可能不同。这被称为运行间不确定性(run-to-run nondeterminism),例如,运行两次完全相同的 Python 脚本,即使依赖库版本完全相同,结果也可能不同。
虽然并发的原子加法操作会使核函数的执行结果变得不可预测,但对于大多数核函数来说,原子加法并非必需。
事实上,在 LLM 的典型前向传播过程中,通常根本不需要使用原子加法。这可能令人感到意外,因为并行化计算中的归约操作通常可以从原子加法中获益。但实际上,原子加法在大多数情况下并非必需,主要原因有两点。
1. 通常情况下,批处理维度上的并行性已经足够,因此我们无需在归约维度上进行并行化。
2. 随着时间的推移,大多数神经网络库都采用了各种策略,以在不牺牲性能的情况下实现结果的可预测性。
由于上述两个因素,对于绝大多数神经网络操作来说,不使用原子加法几乎不会带来性能损失。
当然,仍然有少数常见操作在不使用原子加法时会遭遇显著的性能下降。例如,PyTorch 中的 scatter_add(即 a [b] += c)。不过,在大语言模型中唯一常用且依赖原子加法的操作,是 FlashAttention 的反向传播(backward)。
然而,LLM 的前向传播过程中并不涉及任何需要原子加法的操作。因此,LLM 的前向过程本质上是运行间确定的(即每次运行结果一致)。
维基百科上写道:一个确定性算法是在给定特定输入的情况下,始终产生相同输出的算法。而在这里,只要输入完全相同(即推理服务器处理的请求完全一致),前向传播就总是会生成完全相同的输出。
然而,前向传播本身是确定性的并不意味着整个系统也是确定性的。比如,如果某个请求的输出依赖于并行用户的请求(例如 batch-norm 这样的操作),那么由于每个请求都无法预知其他并发请求的内容,从单个请求的视角来看,整个 LLM 推理过程就会是不确定性的。
事实证明,我们的请求输出确实依赖于其他并发用户的请求。但这并不是因为跨 batch 泄露了信息,而是因为我们的前向传播过程缺乏批次不变性(batch invariance),这导致同一个请求的输出会受到前向传播中 batch size(batch size)变化的影响。
批次不变性与确定性
为了说明什么是批次不变性,我们可以简化问题,只关注矩阵乘法(matmul)。你可以假设所有的 matmul 实现都是运行间确定的,也就是说,同样的输入,每次运行都会得到相同的结果。
但它们并不是批次不变的。换句话说,当 batch size 发生变化时,batch 中的每个元素可能会得到不同的计算结果。
从数学角度来看,这是一种相当反常的性质。理论上,矩阵乘法在 batch 维度上应当是独立的,batch 中其他元素的存在与否,或 batch 的大小,都不应影响某个具体元素的计算结果。
然而,我们通过实验证据可以发现,现实情况并非如此。
请注意,这里的确定性是指每次运行结果都相同。如果你多次运行该脚本,它会始终返回相同的结果。
但是,如果将非批处理不变的核函数用作更大推理系统的一部分,则整个系统可能变得不确定性。当你向推理端点发送请求时,从用户角度来看,服务器的负载情况是不可预测的。负载决定了核函数的 batch size,从而影响每个请求的最终结果。
如果你把某种核函数不具备不变性的属性(例如:batch size)与该属性本身的不确定性(例如:服务器负载情况)组合在一起,就会得到一个不确定性的系统。
换句话说,几乎所有大语言模型推理端点之所以是不确定的,主要原因就是负载(以及由此决定的 batch size)本身具有不确定性!这种不确定性并非仅限于 GPU,使用 CPU 或 TPU 运行的 LLM 推理端点也会存在同样的问题。因此,如果我们想避免推理服务器中的不确定性,就必须确保核函数对 batch size 具有不变性。
为了理解如何实现这一点,我们首先需要了解为什么核函数默认情况下并不具备批处理不变性。
我们如何使核具有批次不变性?
为了确保 Transformer 模型的实现与 batch size 无关,我们必须确保模型中的每个核心模块都与 batch size 无关。幸运的是,我们可以假设每个逐点运算(pointwise operation)都与 batch size 无关。因此,我们只需要担心涉及的 3 个操作:RMSNorm、矩阵乘法和注意力。
巧合的是,这些操作的难度正好是依次递增的。要想在保持合理性能的同时实现批次不变性,每一种操作都需要一些额外的考量。我们先从 RMSNorm 开始谈起。
RMSNorm
RMSNorm 实现方式:
批次不变性的要求是,无论核函数的 batch size 如何,每个元素的归约顺序都必须保持不变。需要注意的是,这并不意味着我们必须始终使用相同的归约策略。例如,即使我们改变了要进行归约的元素数量,只要归约顺序不变,我们的算法仍然可以满足批处理不变性的要求。
因此,只有当 batch size 影响到归约策略时,我们才会打破批次不变性。
让我们来看一下 RMSNorm 的标准并行化策略。一般来说,并行算法都会从尽量减少核心之间的通信中获益。在这里,为了方便讨论,你可以假设我们所说的核心(cores)就是指 SM(Streaming Multiprocessors,流处理多处理器)。更具体地说,这里重要的性质是:核函数启动的线程块(threadblocks)数量多于 SM 的数量。
基于这一点,一种可行的策略就是:将每个 batch 元素分配给一个核心,就像上图展示的那样。
当我们增加 batch size 时,并不会影响归约策略;如果 batch size = 200 已经能为核函数提供足够的并行性,那么 batch size = 2000 显然也同样能够提供足够的并行性。
另一方面,减小 batch size 也会带来一些挑战。由于我们为每个批次元素分配一个核心,减小 batch size 会导致核心数量大于批次元素数量,从而造成部分核心闲置。遇到这种情况,优秀的核函数工程师会采用前面提到的解决方案之一(原子加法或分段求和),从而保持良好的并行性,进而提升性能。然而,这会改变求和策略,导致该核函数不再具备 batch size 不变的特性。
最简单的解决方案就是直接忽略这些情况。这并不是完全不合理的,因为当 batch size 很小时,核函数通常本来就能很快执行,因此即使出现一些减速,也不会造成灾难性的影响。
如果我们必须优化这种场景,一种方法是:始终使用一种在极小 batch size 下也能提供足够并行度的归约策略。这样的策略会在 batch size 较大时导致过度并行,从而无法达到峰值性能,但它可以让我们在整个 batch size 范围内都获得尚可(虽然不是最佳)的性能表现。
批次不变矩阵乘法
从本质上讲,你可以把矩阵乘法看作是一次逐点运算后接一次归约。那么,如果我们通过将输出划分为小块来并行化矩阵乘法,就能得到一种类似的数据并行核函数策略,使得每一次归约都在单个核心内完成。
与 RMSNorm 类似,矩阵乘法的批次维度(M 和 N)也可能变得过小,迫使我们必须沿归约维度(K)进行拆分。尽管有两个批次维度,矩阵乘法仍然需要每个核心有更多的工作量才能有效利用张量核心。例如,对于一个 [1024, K] x [K, 1024] 的矩阵乘法和一个标准的 [128, 128] 二维 tile 大小,数据并行策略最多只能将其分配到 64 个核心上,这不足以使 GPU 达到饱和。
在矩阵乘法中沿归约维度进行拆分被称为 Split-K 矩阵乘法。与 RMSNorm 的情况一样,使用这种策略会破坏批次不变性。
矩阵乘法还有一个额外的复杂性,即张量核心指令。对于归约操作,我们可以一次只处理一行;但高效的矩阵乘法核函数必须一次性操作一整个 tile。
每条张量核心指令(例如 wgmma.mma_async.sync.aligned.m64n128k16)在内部可能有不同的归约顺序。选择不同张量核心指令的一个原因可能是 batch size 非常小。例如,如果我们使用的张量核心 PTX 指令操作的是一个长度为 256 的 tile,但 batch size 只有 32,那我们几乎浪费了所有的计算资源!当 batch size 为 1 时,最快的核函数通常根本不使用张量核心。
因此,确保矩阵乘法批次不变性的最简单方法是:编译一个固定的核函数配置,并将其用于所有形状的计算。尽管这会损失一些性能,但在 LLM 推理场景下,这种损失通常不是灾难性的。特别是,Split-K 策略在 M 和 N 维度都很小时才最被需要,而幸运的是,在我们的应用场景中,N 维度(即模型维度)通常都相当大!
批次不变性注意力机制
在实现了矩阵乘法的批次不变性之后,注意力机制又引入了两个额外的难题 —— 这也很贴切,因为它正好包含两次矩阵乘法。
1. 与 RMSNorm 和矩阵乘法仅在特征维度上进行归约不同,注意力机制现在需要在特征维度和序列维度上都进行归约。
2. 因此,注意力机制必须处理各种影响序列处理方式的推理优化(例如分块预填充、前缀缓存等)。
因此,为了在 LLM 推理中实现确定性,我们的数值计算必须对两个因素保持不变:一是单次处理的请求数量,二是每个请求在推理引擎中的切分方式。
我们首先来了解一下注意力机制的标准并行策略,该策略最初由 FlashAttention-2 提出。与 RMSNorm 和矩阵乘法类似,其默认策略是数据并行策略。由于归约是沿着键 / 值(K/V)张量进行的,因此数据并行策略只能沿着查询(Q)张量进行并行化。
例如,根据推理引擎的选择,一个序列可能被分成几个部分处理(如在分块预填充中),也可能一次性处理完毕(如果预填充未被分割)。为了实现批次不变性,对于一个给定的 token,其归约顺序必须独立于其所在序列中同时被处理的其他 token 的数量。
如果你将 KV 缓存中的 K/V 值与当前正在处理的 token 的 K/V 值分开进行归约(就像在 vLLM 的 Triton 注意力核函数中那样),这个目标就无法实现。例如,在处理序列中的第 1000 个查询 token 时,无论 KV 缓存中有 0 个 token(预填充阶段)还是 999 个 token(解码阶段),其归约顺序都必须完全相同。
为解决此问题,我们可以在注意力核函数运行前就更新 KV 缓存和页表,从而确保无论处理多少个 token,我们的键和值始终具有一致的内存布局。
加上这一额外处理(以及前文提到的所有措施,如使用一致的 tile 大小),我们便能实现一个批次不变性的注意力机制!
然而,这里存在一个重要问题。与矩阵乘法不同,LLM 推理中的注意力计算形状通常确实需要一个拆分 - 归约核函数(split-reduction kernel),这类核函数常被称为 Split-KV 或 FlashDecoding。这是因为如果我们不沿着归约维度进行并行,就只能沿着批次维度、头维度和查询长度维度进行并行。
在注意力的解码阶段,查询长度非常小(通常为 1),因此除非 batch size 非常大,否则我们往往无法使 GPU 达到饱和状态。不幸的是,这种情况不像在 RMSNorm 和矩阵乘法中那样容易被忽略。例如,如果你的 KV 缓存非常长,即使只处理一个请求,注意力核函数的计算也可能耗时很长。
此外,常用于注意力的拆分 - 归约策略也给批次不变性带来了挑战。例如,FlashInfer 的平衡调度算法会选择能够使 GPU 所有核心饱和的最大拆分大小,这使得其归约策略并非批次不变的。然而,与 RMSNorm / 矩阵乘法不同,无论 batch size 如何,仅仅选择一个固定的拆分数量是不够的。
相反,为了实现批次不变性,我们必须采用固定拆分大小策略。换言之,我们固定的不是拆分的数量,而是每个拆分块的大小,这样最终会得到一个可变的拆分数量。通过这种方式,我们可以保证无论正在处理多少个 token,我们总是执行完全相同的归约顺序。
实现
我们基于 vLLM,通过利用其 FlexAttention 后端和 torch.Library,提供了一个确定性推理的演示。通过 torch.Library,我们能够以一种非侵入式的方式替换掉大部分相关的 PyTorch 算子。
你可以在 thinking-machines-lab/batch-invariant-ops 找到「批次不变性」核函数库,以及在「确定性」模式下运行的 vLLM 示例。
地址:https://github.com/thinking-machines-lab/batch_invariant_ops
实验
完成结果的不确定性程度如何?
我们使用 Qwen3-235B-A22B-Instruct-2507 模型,在温度为 0 的设置下,使用提示词「Tell me about Richard Feynman」(非思考模式)采样了 1000 次完成结果,每次生成 1000 个 token。
令人惊讶的是,我们得到了 80 个不同的完成结果,其中最常见的一个出现了 78 次。
通过观察这些结果的差异,我们发现它们在前 102 个 token 上实际上是完全相同的!
首次出现差异是在第 103 个 token。所有的结果都生成了「Feynman was born on May 11, 1918, in」这个序列。然而,接下来,其中 992 次结果生成了「Queens, New York」,而另外 8 次则生成了「New York City」。
然而,当我们启用批次不变性核函数后,全部 1000 次结果都变得完全相同。这正是我们期望采样器应有的表现,但若不使用我们的批次不变性核函数,就无法实现确定性结果。
性能
目前,我们还没有投入精力优化批次不变性核函数的性能。不过,我们还是进行了一些实验来验证其性能是否仍在可用范围内。
我们搭建了一个配备单块 GPU 的 API 服务器,运行 Qwen-3-8B 模型,并请求生成 1000 个序列,输出长度控制在 90 到 110 个 token 之间。
性能下降的主要原因在于 vLLM 中的 FlexAttention 集成尚未经过深度优化。尽管如此,我们看到其性能并未出现灾难性下降。
真正的在策略强化学习
正如研究人员所指出的,训练和推理之间的数值差异会隐式地将我们的在策略强化学习(on-policy RL)转变为离策略强化学习(off-policy RL)。
当然,如果我们甚至无法从两次相同的推理请求中获得每一位都相同的结果,那么在训练和推理之间获得每一位都相同的结果也是不可能的。因此,确定性推理使我们能够修改训练堆栈,从而在采样和训练之间获得每一位都相同的结果,最终实现真正的在策略强化学习。
我们在 Bigmath 上,使用 RLVR 设置进行了实验,其中强化学习策略由 Qwen 2.5-VL instruct 8B 模型初始化,最大 rollout 长度为 4096。
如果我们不使用离策略校正(即重要度加权)进行训练,我们的奖励会在训练中途崩溃;而添加离策略校正项则可以使训练顺利进行。但是,如果我们在采样器和训练器之间实现了每一位都相同的结果,我们就完全处于在策略状态(即 KL 散度为 0),同样可以顺利地进行训练。
我们还可以绘制采样器和训练器之间对数概率的 KL 散度,其中所有 3 次运行都表现出显著不同的行为。在使用重要度加权运行时,KL 散度保持在 0.001 左右,并伴有偶尔的峰值。然而,在不使用重要度加权的情况下运行,最终会导致 KL 散度在大约与奖励崩溃同一时间出现峰值。当然,在运行「真正的在策略强化学习」时,我们的 KL 散度始终保持为 0,这表明训练策略和采样策略之间不存在任何差异。
总结
现代软件系统往往由多层抽象构成。在机器学习中,当我们遇到不确定性和一些微妙的数值差异时,人们往往会倾向于视而不见。
毕竟,我们的系统本来就是「概率性的」,再多一点不确定性又有何妨?单元测试挂掉时,把 atol/rtol 调大点有什么问题?训练器和采样器之间的对数概率差异,应该不是真正的 bug 吧?
我们拒绝这种消极心态。只要稍微多做一些努力,我们就能理解不确定性的根源,甚至真正解决它们!
我们希望这篇博文能为社区提供一套可靠的思路,帮助大家在推理系统中应对不确定性,并激励更多人深入理解自己的系统。
#Autonomous Code Evolution Meets NP-Completeness
英伟达的AI已经开始接管整个项目了?SATLUTION自主进化代码库登顶SAT竞赛
AI 开发复杂软件的时代即将到来?
近年来,以 Google 的 AlphaEvolve 为代表的研究已经证明,AI 智能体可以通过迭代来优化算法,甚至在某些小型、独立的编程任务上超越人类。然而,这些工作大多局限于几百行代码的「算法内核」或单个文件。
但现实世界的软件,比如一个顶级的 SAT 求解器,是一个庞大而复杂的系统工程,包含数百个文件、精密的编译系统和无数相互关联的模块。手动打造一个冠军级求解器不仅需要极高的领域知识,而且投入产出比越来越低。
为此,NVIDIA Research 的研究人员提出了 SATLUTION,首个将 LLM 代码进化能力从「算法内核」扩展到「完整代码库」规模的框架。SATLUTION 能够处理包含数百个文件、数万行 C/C++ 代码的复杂项目,并在被誉为「计算理论基石」的布尔可满足性(SAT)问题上,取得了超越人类世界冠军的性能。
- 论文标题:Autonomous Code Evolution Meets NP-Completeness
- 论文地址:https://arxiv.org/pdf/2509.07367
SATLUTION 框架通过协调 LLM 智能体,在严格的正确性验证和分布式运行时反馈的指导下,直接对 SAT 求解器的代码库进行迭代优化。值得一提的是,在这一过程中,它还会同步地「自我进化」其进化策略与规则。
基于 2024 年 SAT 竞赛的代码库与基准,SATLUTION 进化出的求解器不仅在 2025 年的 SAT 竞赛中击败了人类设计的冠军,而且在 2024 年的基准测试集上,其性能也同时超越了 2024 年和 2025 年两届的冠军。
SATLUTION 在 2025 年 SAT 竞赛基准测试中的惊人表现。图中柱状图的高度代表 PAR-2 分数(一种衡量求解器性能的指标,越低越好)。左侧颜色渐变的柱体是 SATLUTION 进化出的求解器家族,它们的分数显著低于人类设计的 2025 年竞赛冠军(蓝色)和亚军(绿色)。
SATLUTION 是如何工作的?
SATLUTION 围绕 LLM 智能体、一套动态规则系统以及一个严格的验证与反馈循环构建。
双智能体架构
该系统由两个协同工作的 LLM 智能体驱动,基于 Cursor 环境和 Claude 系列模型实现。
规划智能体:负责高层次的战略制定。在进化周期的初始阶段,它会分析作为起点的求解器代码库及其性能,提出有潜力的修改方向。在后续周期中,它会综合考量累积的代码变更、性能指标和历史失败记录,为下一次迭代制定新的进化计划。
编码智能体:负责执行具体的开发任务。它根据规划智能体的蓝图,直接对 C/C++ 求解器代码库进行编辑和实现。其职责还包括管理辅助任务,例如更新 Makefile 等构建系统配置、修复编译错误以及调试功能性或执行时错误。
规则系统:引导与约束
规则系统是确保进化过程高效和稳定的关键。它为智能体的探索提供了必要的引导,有效减少了在无效或错误方向上的尝试。
在进化开始前,研究人员为系统设定了一套静态规则,编码了基础的领域知识和硬性约束。这包括:基本的 SAT 启发式算法原则、严格的正确性要求(如必须为无解实例生成 DRAT 证明)、统一的代码库目录结构规范以及详细的评估协议。
实验表明,在缺少这套初始规则的情况下,智能体的表现会显著下降,容易产生偏离目标的修改。
该框架的一个核心特点是规则库本身能够动态演进。在每个进化周期结束后,一个分析器会对过程中的编译错误、验证失败和新出现的失效模式进行复盘,并自动提出规则补丁。
例如,系统可以根据一次失败的经验,自动向规则库中添加一个新的「禁止代码模式」,从而防止智能体在未来重复同样的错误。这使得规则系统与求解器代码共同进化,不断提升框架的整体效率和鲁棒性。
验证与评估流程
为保障代码质量和求解的正确性,每个新生成的求解器版本都必须通过一个严格的流程。
- 两阶段验证
第一阶段是编译和基本功能测试。 系统会尝试编译新代码,成功后在一个包含 115 个简单 CNF 实例的测试集上运行,以捕捉编译错误、段错误等基础问题。
第二阶段是完整的正确性验证。 通过第一阶段的求解器会在一个更大的、结果已知的基准测试集上运行。对于其输出的每一个结果,系统都会进行核查:如果报告「可满足」(SAT),则验证所给出的赋值是否正确;如果报告「不可满足」(UNSAT),则使用外部检查工具验证其生成的 DRAT 证明的有效性。
只有完全通过这两个阶段验证的求解器,才会被认为是「正确」的,并进入下一步的性能评估。
- 分布式评估与反馈
通过验证的求解器会被部署到一个由 800 个 CPU 节点组成的集群上,在完整的 SAT Competition 2024 基准测试集(包含 400 个实例)上进行并行评估。这种大规模并行使得整个评估过程可以在大约一小时内完成,从而为智能体提供近乎实时的性能反馈。
反馈指标非常详尽,包括已解决的 SAT/UNSAT 实例数量、不同时间段内解决的实例分布、内存使用情况,以及作为核心驱动指标的 PAR-2 分数(一种对未解决实例进行高额时间惩罚的平均运行时指标)。
实验结果
SATLUTION 在 70 个进化周期的实验中,展现了清晰且稳健的性能提升轨迹。
根据论文中对 2024 年基准测试集的性能追踪图表(图 8)显示,在最初的 5-10 个迭代周期中,系统取得了快速进展,这主要是因为它整合了多个初始种子求解器的互补优势。
随后,性能提升的速度有所放缓,但仍在持续进行,表明智能体开始处理更细微和复杂的优化问题。
大约在第 50 次迭代时,SATLUTION 进化出的求解器在 2024 年的基准上已经开始优于 2025 年的人类设计冠军。
到第 70 次迭代结束时,其性能已稳定地超越了所有用于比较的基准求解器。整个过程表现出高度的稳定性,由于验证保障措施的存在,没有发生过严重的性能衰退。
SATLUTION 自进化性能曲线。
整个 SATLUTION 自我进化实验过程的总计成本低于 20000 美元。相比之下,由人类专家开发一个具有竞争力的 SAT 求解器通常需要数月乃至数年的持续工程投入,而 SATLUTION 在数周内便取得了超越顶尖人类水平的成果。
更多细节请参见原论文。
#CTF-Dojo 和 Cyber-Zero
大模型智能体不止能写代码,还能被训练成白帽黑客
当人们还在惊叹大模型能写代码、能自动化办公时,它们正在悄然踏入一个更敏感、更危险的领域 —— 网络安全。
想象一下,如果 AI 不只是写代码的助手,而是能够像「白帽黑客」一样,在不破坏系统的前提下模拟攻击、发现漏洞、提出修复建议,会带来怎样的改变?
这个问题,最近由 Amazon AWS AI 的 Q Developer 团队给出了答案。他们在 arXiv 上同时发布了两篇论文,提出了训练网络安全大模型的全新方法:Cyber-Zero 和 CTF-Dojo。这两项研究不仅是学术探索,更像是一次「实战演练」的预告,预示着大模型智能体正在从通用任务走向网络安全的前线。
论文 1: Cyber-Zero: Training Cybersecurity Agents without Runtime
链接: https://arxiv.org/abs/2508.00910
论文 2: Training Language Model Agents to Find Vulnerabilities with CTF-Dojo
链接:https://arxiv.org/abs/2508.18370
网络安全
大模型落地的一座特殊堡垒
在通用任务上,大模型的训练已经形成了相对成熟的范式:海量数据、长时间预训练、再经过对齐与微调。但网络安全场景不同,其核心难点在于训练环境与数据的高度敏感性。
事实上,闭源大模型已经在安全攻防方向展现出一定潜力。Google 的 Project Zero 团队就曾使用 Gemini 系列模型探索漏洞发现,一些初创公司甚至尝试构建基于闭源模型的「AI 红队」,用来模拟攻击并进行防御验证。实际案例表明,这些强大的闭源模型确实具备了发现漏洞、自动化执行攻击步骤的潜力。
然而问题在于,这些模型的训练范式和数据集完全不透明。我们无法得知它们是如何习得攻防知识的,也无法验证模型的安全性与可靠性。更重要的是,闭源模型无法被研究者和企业安全团队自主改造或控制,这本身在安全领域是一种潜在风险。
另一方面,如果要让模型从零开始学会攻防,传统思路需要搭建真实运行环境,以生成交互轨迹。但这种方式成本高、风险大,甚至可能在实验中触发不可控的攻击。而高质量的安全攻防数据本就极度稀缺。漏洞利用和修复往往涉及复杂的环境状态、系统调用和长时间推理,很难像自然语言文本那样容易转化为标准语料。
这意味着,如果继续沿用传统方式,「AI 白帽黑客」可能永远只能停留在实验阶段。Amazon 团队正是瞄准了这个瓶颈,提出了两个互补的解决方案:Cyber-Zero 致力于「如何生成安全而高效的训练数据」,而 CTF-Dojo 则专注于「如何在实战中训练模型发现漏洞」。
Cyber-Zero
无需真实环境的模拟训练场
Cyber-Zero 的核心思想是「runtime-free training」,即完全不依赖真实运行环境,而是通过已有知识和语言建模生成训练所需的高质量行为轨迹 (trajectories)。
团队注意到,公开的 CTF(Capture The Flag)竞赛 writeups 是极其宝贵的资源。它们记录了参赛者如何分析题目、尝试攻击、定位漏洞以及最终解题的过程。Cyber-Zero 正是基于这些 writeups,构建出高质量的训练轨迹。
具体来说,系统首先从 writeups 中提取关键步骤和思路,然后通过设定不同的人格(persona),让大模型在纯文本环境中模拟攻防双方的对话与操作。例如,攻击者 persona 会生成可能的利用路径,防御者 persona 会进行应对。这一过程中生成的长序列交互被视作行为轨迹,用于训练网络安全智能体。
实验表明,这种免运行时的轨迹生成不仅规模可观,而且多样性丰富,覆盖了常见的攻防模式。与真实环境生成的轨迹相比,Cyber-Zero 的数据在漏洞定位、攻击路径推理等任务上的训练效果毫不逊色,甚至在部分指标上表现更优。这意味着,AI 白帽黑客可以在一个完全安全的虚拟训练营中反复优化,而不必担心成本和风险。
团队还得出几项关键发现:
- 通用的软件工程智能体(SWE Agents)无法直接迁移至网络安全任务。写代码 ≠ 找漏洞,两类技能之间存在明显鸿沟。
- 模型规模与性能密切相关:参数更大的模型更擅长维持长程推理链,跨多步组合命令,并在多轮交互中保持状态连贯,这对复杂攻防至关重要。
- 经过 Cyber-Zero 轨迹微调的 32B 智能体,性能已接近闭源模型 Claude-3.7-Sonnet,而推理成本仅为其 1%。
这些结果一方面凸显了 Cyber-Zero 的实用价值:它不仅能安全、低成本地生成训练数据,还能让模型通过微调在安全任务上具备实用能力;另一方面也指出了研究方向:如果不针对安全任务进行专门优化,即便是大规模的通用 SWE 智能体也难以承担白帽黑客的角色。
CTF-Dojo
让 AI 在实战中学会发现漏洞
如果说 Cyber-Zero 提供的是一个「虚构的训练场」,它通过解析 CTF writeups 与 persona 模拟,在纯文本空间中生成攻防轨迹,让模型在完全无风险的虚拟环境中学习;那么 CTF-Dojo 就是一个「真实的战场」。它直接构建可运行的 CTF 攻防环境,让智能体能够真正执行命令、与系统交互、发现并利用漏洞。前者强调规模化、安全、高效的数据生成,后者强调贴近实战的攻防演练,两者一虚一实,形成互补。
CTF-Dojo 的核心难点在于:如何在大规模下为 LLM 智能体提供稳定的运行环境。传统 SWE(软件工程)代理通常需要专家手动配置环境才能运行,而每个任务的准备工作往往耗时数周,极大限制了研究规模。为此,Amazon 团队提出了 CTF-Forge,一种能够在几分钟内自动搭建运行时的容器化工具,可以快速部署数百个挑战实例,显著降低了人力成本。
研究团队选择了全球最具代表性的 pwn.college CTF Archive 作为种子数据。该数据集收录了数百个来自顶级赛事的高质量题目,涵盖六大类别,从 Web 漏洞、二进制利用到密码学挑战一应俱全。通过精心筛选,并排除测试数据中已包含的题目,最终形成了 658 个独立任务实例,为智能体训练提供了坚实的基础。
然而,最初实验表明,开源模型在这些复杂任务上的成功率极低。大部分 OSS 模型只能完成少数挑战,生成的轨迹也质量参差不齐。为了提高可用样本的产出率,团队引入了三项推理阶段增强技术:
- 将公开的赛题笔记(writeups) 作为提示,帮助模型更快锁定解题方向;
- 运行时增强:通过在执行过程中动态修改环境配置或任务约束,把过于复杂的挑战「降维」,从而提升模型完成任务的成功率;
- 教师模型多样化:不仅依赖单一模型生成解题轨迹,而是同时调用多种不同类型的大模型(包括开源和闭源),让它们各自贡献成功案例,以此获得更丰富、更具多样性的训练样本。
最终,团队主要依赖 Qwen3-Code-480B 和 DeepSeek-V3-0324 两个强大的开源模型,收集到来自 274 个挑战的 1000+ 成功轨迹。在去除冗余、限制每个任务实例的最大样本数后,最终得到了 486 条高质量、经过运行验证的轨迹。
基于这些数据,研究团队对 Qwen3 系列模型(8B、14B 和 32B 参数规模)进行了训练,并在多个网络安全基准任务上评估了效果。结果显示,经过 CTF-Dojo 训练的模型,在 EnIGMA+ 基准(源自前作 Cyber-Zero)上取得了最高 11.6% 的绝对提升,不仅超过了开源基线模型,还表现出与闭源模型接近的水平。更重要的是,随着训练样本数量的增加,性能呈现出清晰的可扩展性,证明了在真实环境轨迹驱动下,大模型在网络安全任务上的潜力可以被系统性激发。
这些结果意味着,CTF-Dojo 不仅解决了过去「环境难以大规模配置」的工程难题,还验证了一个核心科学问题:网络安全智能体的性能能够随着执行数据的增加而持续提升。在已有 SWE 代理无法泛化的情况下,CTF-Dojo 给出了一条清晰的道路:通过规模化、自动化的运行环境收集轨迹,推动模型逐步逼近人类白帽黑客的实战水平。
从虚拟到实战的组合拳
把 Cyber-Zero 和 CTF-Dojo 放在一起看,就会发现它们形成了一个闭环。Cyber-Zero 提供的是安全、可扩展的训练数据来源,相当于一个虚拟训练营;而 CTF-Dojo 则是实战武馆,让模型在真实挑战中不断迭代。前者解决了数据与成本的问题,后者解决了能力习得与迁移的问题。两者结合,为 AI 白帽黑客的成长提供了完整路径。
这种设计思路的意义在于,它不仅追求理论上的可行性,还强调在生产环境中真正可部署。正如论文中展示的实验结果,Cyber-Zero 的数据生成和 CTF-Dojo 的环境构建都能规模化运行,且能在真实任务上带来可验证的性能提升。这标志着 AI 在网络安全方向正在逐步进入应用落地阶段。
未来意义与挑战
AI 白帽黑客蕴藏广阔前景:在企业安全团队中,它可以作为虚拟成员,自动扫描代码、发现潜在漏洞,并提出修复建议;在红队演练中,它可以充当对手角色,帮助测试防御系统;在教育场景中,它可以成为学员的「陪练」,提供个性化的挑战和反馈。更长远来看,随着成本降低和技术成熟,中小企业也有望借助这样的系统获得「普惠安全」。
但与此同时,这项技术的双重用途属性不容忽视。正如研究团队在论文中强调的那样,虽然 Cyber-Zero 和 CTF-Dojo 的初衷是帮助开发者和研究人员在软件部署前发现并修复漏洞,但同样的能力也可能被滥用于进攻目的,比如自动化发现外部系统的漏洞,甚至开发恶意工具。特别是 Cyber-Zero 的「免运行时」方法,降低了训练高性能网络安全智能体的门槛,使其更容易被更广泛的群体获取和使用。这种民主化的趋势既意味着安全研究的普及,也意味着风险的扩散。
实验结果已经证明,基于虚拟轨迹或执行验证数据训练的模型,能够在多个基准任务上达到接近甚至媲美闭源前沿模型的性能。这表明先进网络安全能力的民主化不仅在技术上可行,而且正在快速到来。如何确保这类能力更多地服务于防御,而不是被滥用于攻击,将是未来亟需讨论的议题。
在未来研究方向上,团队提出了几个值得关注的思路。一个是构建实时更新的 CTF 基准:通过 CTF-Forge 自动重建比赛环境,把来自活跃 CTF 赛事的挑战容器化,用于动态评测和轨迹采集,实现可扩展、实时的 benchmark。另一个方向是强化学习,即让网络安全智能体直接与动态环境交互,并通过结构化奖励获得反馈。这种范式有望突破单纯模仿学习的局限,使模型能够发展出更普适、更具适应性的策略,更好地应对未知的安全问题。
因此,未来的关键在于平衡开放与安全。在推动技术进步与普及的同时,建立有效的安全护栏,需研究者、开发者、安全机构与政策制定者协同努力,确保这类强大工具以负责任的方式被开发和使用。唯有如此,才能真正增强整体网络防御能力,迎接一个更安全的智能时代。
参考资料:
[1] Zhuo, T. Y., Wang, D., Ding, H., Kumar, V., & Wang, Z. (2025). Cyber-Zero: Training Cybersecurity Agents without Runtime. arXiv preprint arXiv:2508.00910.
[2] Zhuo, T. Y., Wang, D., Ding, H., Kumar, V., & Wang, Z. (2025). Training Language Model Agents to Find Vulnerabilities with CTF-Dojo. arXiv preprint arXiv:2508.18370.
[3] https://x.com/terryyuezhuo/status/1962009753472950294
[4] https://github.com/amazon-science/Cyber-Zero
#AgentGym-RL
交互扩展时代来临:创智复旦字节重磅发布,昇腾加持,开创智能体训练新范式
强化学习之父、2024 年 ACM 图灵奖得主 Richard Sutton 曾指出,人工智能正在迈入「经验时代」—— 在这个时代,真正的智能不再仅仅依赖大量标注数据的监督学习,而是来源于在真实环境中主动探索、不断积累经验的能力。正如人类通过实践理解世界、优化行为一样,智能体也必须在交互中积累经验、改进策略,才能掌握长期决策的能力。
无独有偶,特斯拉前 AI 负责人,OpenAI 联合创始人 Andrej Karpathy 进一步指出,环境的多样性与真实性,是智能体获得泛化能力、应对复杂任务的关键前提。缺乏丰富的环境,智能体就无法充分暴露于多样化情境,也难以从经验中形成稳健的决策策略。
在这一背景下,复旦、创智、字节的研究者们基于智能体自我进化框架 AgentGym,全新打造了多环境强化学习智能体训练框架 AgentGym-RL。
本文的第一作者为复旦大学自然语言处理实验室博士生奚志恒,通讯作者为复旦大学自然语言处理实验室的桂韬教授和张奇教授。
这一框架是首个无需监督微调、具备统一端到端架构、支持交互式多轮训练,且在多类真实场景中验证有效的 LLM 智能体强化学习框架,为 LLM 智能体的强化学习提供了全新的解决方案。
依托 AgentGym-RL 框架,研究人员创新性地提出了智能体范式下扩展测试时计算的新路径 —— 扩展环境交互(Scaling Interaction)。其核心是通过增加训练与测试阶段模型和外部环境的交互回合数,让模型借助多轮反馈逐步完善决策、提升表现。
相较于传统测试时扩展方法,新路径优势显著:传统方法局限于模型内部,仅靠延长思维链消耗更多 Token,缺乏与外部环境的实时互动,难以应对复杂任务的动态场景需求;而扩展交互轮次突破了这种封闭式推理,允许模型依据每轮反馈动态修正策略,最终以更结构化的决策流程、更高效率的问题解决路径完成任务,成为智能体范式下表现更优的测试时扩展方案。
然而,长交互轮次训练面临着容易出现崩溃的问题。针对这一痛点,研究团队再次突破,提出了 ScalingInter RL 交互轮次扩展策略,通过分阶段增加模型最长交互轮次限制,使智能体能够先在短交互轮次下掌握基础技能,再逐步过渡到中长交互轮次解决复杂任务,平衡了智能体训练过程中的探索与利用,有效规避了模型崩溃的风险,成功构建了稳定的交互轮次扩展训练范式。
借助 AgentGym-RL 这一统一框架,结合 ScalingInter-RL 算法的稳定扩展能力,研究团队取得了令人瞩目的成果:
仅仅是 7B 大小的模型,在多个真实任务导向的环境中经过长轮次交互训练后,竟逐步掌握了理解任务目标、预测行动后果、规划多步操作等复杂任务处理技能。从自主浏览界面、精准筛选选项,到对比参数、执行操作,整个过程流畅高效,展现出前所未有的自主决策水平。在五种测试环境、26 项测试任务中,它不仅超越了 100B 以上的大型开源模型,还追平了 OpenAI o3、谷歌 Gemini 2.5 Pro、DeepSeek r1 等顶尖商业模型的水平,充分彰显出 AgentGym-RL 框架与交互轮次扩展范式的强大潜力与竞争力,也为人工智能在 「经验时代」 的发展注入了强劲动力。
商业模型、开源模型以及本文强化学习模型在不同智能体任务中的表现。
从网页导航到科学实验,从文字游戏到实体交互,这套兼容 PPO、GRPO 等主流算法的模块化框架,正为开源社区推开自主智能体研发的全新大门。
论文标题:AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
论文地址:https://arxiv.org/abs/2509.08755
项目主页:https://agentgym-rl.github.io
代码地址:https://github.com/WooooDyy/AgentGym-RL
环境框架地址:https://github.com/WooooDyy/AgentGym
研究背景:从 「数据密集」 到 「经验密集」
构建能够在复杂现实场景中完成多轮决策的自主 LLM 智能体,是人工智能领域一个新兴且快速发展的前沿方向。
Sutton 曾强调,人工智能的发展正从 「数据密集型」 向 「经验密集型」 转型:早期模型依赖海量标注数据进行监督学习,如同通过教科书间接获取知识;而真正的智能体应当像人类一样,在真实环境中通过 「做中学」积累经验,在持续交互中理解环境规则、预测行动后果、优化长期目标。
而在这一过程中,构建真实、多样、贴合现实需求的交互环境则成为了强化学习的重中之重。真实的环境是智能体获得有效经验的基础,只有还原场景中的动态变化与不确定因素,才能避免智能体陷入 「实验室表现优异、落地即失效」 的困境;环境的多样化是智能体具备泛化能力的前提,只有覆盖多类型任务场景的交互逻辑,才能让智能体在新场景中快速迁移已有经验。
然而, 当前大多数现有研究局限于单轮任务,缺乏与复杂环境的多轮交互机制。虽然最近有研究尝试扩展 RL 以训练具有多轮能力的 LLM 智能体,但这些工作仍然存在任务场景单一、环境适配性差、优化稳定性低等问题,使得智能体无法接触到足够丰富的环境信息,难以生成和利用第一手经验,自然难以应对现实世界复杂多变的任务。因此,该领域目前仍然缺乏一个统一的、端到端的、交互式多轮 RL 框架,能够在广泛的实际场景和环境中有效地从头开始训练 LLM 智能体,而无需依赖监督微调(SFT)作为初步步骤。
为填补这一空白,研究团队提出了 AgentGym-RL,一个通过强化学习训练 LLM 智能体进行多轮交互式决策的新框架。该框架的研究工作围绕着推动智能体高效学习和决策展开,主要有以下贡献:
- 提出并开源 AgentGym-RL 框架:这是一个全新的、统一的、模块化且灵活的端到端 RL 框架,专为智能体多轮交互式决策而设计,包含丰富多样的场景和环境,让 「从经验学习」 有了标准化的实验场。
- 引入 ScalingInter-RL 方法:这是一种基于渐进式交互轮数拓展的强化学习训练方法,使智能体能够逐步适应环境,优化其交互模式、行为和技能,最终在探索和利用之间实现更好的平衡。
- 验证框架和方法的有效性:通过大量实验验证了 AgentGym-RL 和 ScaleInter-RL 能够显著且稳定地提升智能体性能,使其在复杂任务处理能力上与顶尖商业模型形成对标甚至实现性能反超。
AgentGym-RL:为经验时代打造的自主智能体训练基础设施
AgentGym-RL 集成了多种环境、丰富的轨迹数据和全面的基准测试,通过标准化环境操作接口,将复杂的环境配置流程简化为便捷的模块化操作。该框架以 AgentGym 为基础进行迭代升级,通过优化模型与环境的交互协议、强化分布式并行计算架构、引入强化学习训练模块等方式进行改进。
其核心目标,就是为 LLM 智能体构建一个能够持续产生 「有效经验」 的生态,让「经验驱动学习」不再依赖零散的实验设置,而是具备可复现、可扩展的坚实基础。
模块架构
AgentGym-RL 框架主要包含环境、代理和训练三个组件。
- 环境模块中,每个环境打包为独立服务,支持并行请求,环境客户端通过 HTTP 连接服务器,向代理暴露如获取观测、动作等 API,涵盖多场景、环境、任务和数据实例,为 LLM 代理训练提供支持
- 代理模块封装语言模型代理与环境的交互逻辑,支持多种提示和采样配置,扩展长期规划、自我反思等高级机制。
- 训练模块实现支持在线算法的统一强化学习管道,管理经验收集等,支持课程学习和交互扩展,高度模块化,支持多训练方法,训练过程可分布在多节点。
AgentGym-RL 架构图:采用解耦化设计,兼具灵活性与可扩展性,能够支持多种场景、环境类型及算法的应用与适配。
多样化的环境
AgentGym-RL 框架包含多种环境和丰富的任务,涵盖了网页导航、文字游戏、xx控制、科学探索和深度搜索等多个类别 —— 精准对应了语言智能体领域的重要推动者、OpenAI 研究科学家姚顺雨所说的 「AI 下半场落地场景」,每一类环境都指向真实世界中 AI 需要解决的实际问题。该框架支持主流的 RL 算法,并配备了广泛的实际场景:
- 网页导航:对应 WebArena 等环境,包含电商、Reddit 论坛、GitLab 协作开发、OpenStreetMap 地图、CMS 内容管理系统等 5 个子任务,共 372 个训练查询和 50 个测试查询。智能体需模拟人类与网页交互,完成在线购物、信息提取、表单填写等操作,涉及地图、计算器等工具的使用。
- 深度搜索:对应基于搜索引擎的环境,涵盖 NQ、TriviaQA、PopQA 等 7 个数据集的任务。智能体需通过动态生成搜索查询、调用浏览器和 Python 解释器等工具,从外部源获取信息并整合,完成多轮检索与推理任务。
- 电子游戏:对应 TextCraft 等环境,这是一种类 Minecraft 的文本制作游戏。任务按制作树深度分为 1-4 级,智能体需通过自然语言交互使用制作、 inventory 管理等 API,完成从简单到复杂的物品制作任务。
- xx控制:对应 BabyAI 等环境,这是一个可控的网格世界,任务按最终目标分为 6 个子集。智能体需通过自然语言指令导航,执行移动、拾取物体、开门等动作,涉及空间推理和环境交互能力。
- 科学任务:对应 SciWorld 等环境,选取 8 个子任务。智能体需在模拟的科学场景中,使用实验室仪器相关 API 进行实验(如测量温度、连接电路、混合化学物质),完成科学探索和假设验证任务。
多种强化学习算法
AgentGym-RL 提供全面的算法支持,涵盖不同的学习方法,包括监督微调(SFT)、直接偏好优化(DPO)、拒绝采样和在线 RL 算法等。在线 RL 是 AgentGym-RL 的核心,支持多种主流在线 RL 算法,如近端策略优化(PPO)、组近端策略优化(GRPO)、增强型 REINFORCE(REINFORCE++)和基于回合的策略优化(RLOO)等。
ScalingInter-RL:交互扩展新策略
基于 AgentGym-RL 框架,研究团队创新性地提出了 ScalingInter-RL 方法,通过扩展智能体在训练过程中的交互轮数,平衡智能体对环境的探索与利用,显著提升智能体在复杂环境中的学习和决策能力。
ScalingInter-RL 算法示意图
ScalingInter-RL 方法的核心在于逐步、动态地扩展智能体与环境的交互轮次。
在训练的初始阶段,智能体的主要任务是快速学习基本技能,解决相对简单的问题。此时,ScalingInter-RL 会限制交互轮次,引导智能体集中精力利用已有的知识和策略,尽可能高效地完成任务。这种策略就像是为智能体制定了一个循序渐进的学习计划,让它在稳固的基础上逐步成长。
随着训练的稳步推进,智能体已经掌握了一定的基础能力,此时 ScalingInter-RL 会适时地增加交互轮次。这一举措鼓励智能体勇敢地探索更多未知的领域,尝试不同的行动和策略。通过这种方式,智能体能够避免陷入固定的思维模式和行动路径,不断优化自己的行为,从而更好地应对复杂多变的环境。
在实际应用中,这种策略展现出了显著的优势。在网页导航任务中,初始阶段,智能体通过有限的交互轮次,迅速掌握了基本的网页操作技能,如点击链接、填写表单等。随着训练的深入,交互轮次的增加使得智能体能够更加深入地探索网页的各种功能和结构,学会了根据不同的任务需求,灵活地调整操作策略,从而更加高效地完成任务。在科学任务中,智能体在初期利用有限的交互学习基本实验操作,随着交互轮次的增多,能够更全面地探索实验条件和变量之间的关系,优化实验步骤,提高实验成功率。
实验
为了全面验证 AgentGym-RL 框架的稳定性和有效性,研究团队开展了一系列广泛且深入的实验。这些实验覆盖了丰富多样的场景和环境,旨在模拟智能体在实际应用中可能面临的各种复杂情况,从而全面、准确地评估智能体的性能。
实验涵盖了五个主要场景,包括网页导航、深度搜索、数字游戏、xx任务和科学任务。
主要结果
在 5 个不同场景(Web 导航、深度搜索、数字游戏、xx任务、科学任务)中,使用 AgentGym-RL 框架训练的开源模型展现出了出色的多轮交互决策能力。
进一步,通过 ScalingInter-RL 方法的优化,这些模型实现了显著的性能提升,甚至超越了一些大型商业闭源模型。在网页导航任务中,ScalingInter-7B 模型的总体准确率达到了 26.00%,大幅超越了 GPT-4o 的 16.00%,与 DeepSeek-R1-0528 和 Gemini-2.5-Pro 的表现相当;在科学场景中,ScalingInter-7B 模型以 57.00% 的总体得分创下新的最优成绩,远超所有开源和专有模型,包括排名第二的专有模型 OpenAI o3(41.50%)。
因篇幅所限,此处仅展示部分实验结果,更多详细结果请查阅论文。实验结果表明,经 ScalingInter-RL 算法训练的模型在多个环境中均达到了领先水平,实现了显著的性能提升。
在 WebArena 环境下的实验结果。
在 SciWorld 环境下的实验结果。
ScalingInter-RL 展现更稳定高效的强化学习优化动态
ScalingInter-RL 方法在训练稳定性与效率上显著优于传统方案。实验表明,训练周期内,采用该方法的智能体奖励值始终保持上升趋势,而固定轮次模型 150 步后奖励值衰减 32%。这种稳定性源于其渐进式交互设计 —— 通过动态调整交互深度,使智能体在技能积累阶段避免因探索过度导致的策略震荡,在优化阶段又能保持足够的行为多样性。
效率方面,ScalingInter-RL 方法同样提升显著。TextCraft 任务中,ScalingInter-RL 以传统方法 60% 步数达成 89% 成功率;WebArena 导航任务里,单位计算量性能增益是 PPO 算法 1.8 倍,适合大规模多场景训练。
ScalingInter-RL和传统RL算法的训练动态对比
后训练与测试时计算量比模型规模具有更高的缩放潜力
实验得出一个关键见解:有策略地投入后训练计算和测试时计算,比仅仅增加模型的参数数量更具影响力。7B 参数的 ScalingInter-RL 模型在经过本文研究者的强化学习框架训练后,不仅超过了其他同等规模的开源模型,还显著优于参数规模近其十倍的更大模型。
这表明,针对性的训练与推理计算投资,比单纯扩大模型参数更具性价比。
本文框架和方法通过后训练,显著提升了7B参数规模开源模型的能力,不仅超过了其他同等规模的开源模型,且显著优于参数规模近其十倍的更大模型。
环境结构是决定强化学习效率的关键因素
不同场景的结构特性对 RL 训练效果产生显著分化影响。在规则明确、反馈清晰的环境(如 TextCraft、BabyAI、SciWorld)中,RL 能带来大幅性能提升;而在开放式环境(如 WebArena、SearchQA)中,性能提升则有限。
这表明,环境的规则明确性、状态可观测性和奖励稀疏度,共同构成了 RL 算法效率的边界条件 —— 当环境复杂度超出智能体的状态表征能力时,即使最优训练策略也难以发挥作用。
讨论
研究团队从三个角度调查了智能体表现如何随推理时计算增加:
- 扩展交互轮次:随着推理时交互轮次的增加,所有模型的性能均呈现上升趋势,其中经 AgentGym-RL 训练的智能体始终保持领先优势,验证了交互扩展对环境探索的重要性。
随着测试时交互轮次的增加,所有模型的性能均呈现上升趋势。
- 扩展采样数量:在并行采样方面,增加采样数量(K 值)能显著提升 Pass@K 指标,且经 RL 训练的模型在相同采样预算下表现更优。
随着采样数量的增加,所有模型的性能均呈上升趋势。
- 不同 RL 算法比较:对比 GRPO 与 REINFORCE++ 两种主流 RL 算法发现,GRPO 在 TextCraft、BabyAI 和 SearchQA 任务上均显著优于 REINFORCE++。即使 3B 参数的 GRPO 模型,其性能也超过 7B 参数的 REINFORCE++ 模型,表明算法选择对性能的影响可能大于模型规模。
模型在不同强化学习算法下的测试结果
真实交互示例
不妨聚焦这些真实交互场景 —— 在以 BabyAI 为代表的xx任务中,该研究中的智能体展现出了卓越性能。以 「找到黄色小球并带回起点」 这一任务为例,其不仅要求智能体具备基础的路径规划与避障能力,还涉及更为复杂的长程依赖与顺序规划逻辑。跨步骤的信息利用能力、动态化的探索策略,以及对多阶段任务的全局把控能力,使得该任务的难度远超单一反应类操作。
而基于 AgentGym-RL 框架、经 ScalingInter 算法训练的智能体,正是在这类高难度场景中展现出了令人瞩目的表现。它不仅能精准理解任务核心目标,还能在多扇彩色门与未知房间构成的复杂环境中,开展有条理的探索活动,合理规划行动顺序;当确认某一区域无探索价值后,更能主动离开并转向新的探索路径。尤为难得的是,它能高效利用已获取的环境信息,将分散在不同时间节点的观察结果串联起来,构建连贯的决策链路。正是这种跨步骤的信息整合能力与动态调整机制,让它在复杂环境中始终保持清晰且高效的任务执行能力。
,时长00:15
而在以 WebArena 环境为代表的真实网页交互场景中,智能体需要面对充斥着大量噪音的网页界面,真正的功能入口往往被隐藏在层层标签页和复杂的交互逻辑之下。若缺乏对页面结构的理解,智能体很容易陷入低效的穷举式搜索。然而,基于 AgentGym-RL 框架、经 ScalingInter 算法训练后,智能体能够主动点击 「Sales」 标签页,精准锁定与任务相关的入口,并进一步利用内置的 「Filter」 功能进行筛选,而不是依赖低效的遍历查看。这一系列操作表明它已经掌握了网页的结构与规则,并能基于探索经验选择更高效的策略,从而显著提升任务的准确性与执行效率。
,时长00:42
结论与展望:以经验学习开启 AI 下半场的自主智能体时代
AgentGym-RL 框架的推出,不仅是自主 LLM 智能体训练领域的一次技术突破,更标志着 AI 行业向「经验时代」的深度迈进。
从技术层面看,AgentGym-RL 通过统一的端到端 RL 框架,解决了自主智能体训练中 「场景单一、算法割裂、效率低下」 的痛点,让 「从经验中学习」 成为标准化、可复现的技术路径;而 ScalingInter-RL 方法则通过渐进式交互轮次扩展,平衡了经验探索与利用的关系,让智能体能够像人类一样 「循序渐进积累能力」。实验数据充分证明了这一方案的价值:7B 参数的开源模型在 26 项任务中对标甚至超越顶级闭源模型,为 AI 下半场的技术发展提供了新范式。
然而,探索的道路永无止境。未来,本文研究者们将重点关注以下三个方向:
1. 通用能力升级:使智能体打破 「领域壁垒」,在全新环境和面对未知工具时仍能进行高效决策;
2. 复杂场景拓展:向更长周期、更贴近物理世界的任务拓展,例如机器人操作、现实场景规划等,以应对更丰富的感官输入和庞大的行动空间;
3. 多智能体协同:从 「单打独斗」 转向 「团队协作」,探索多智能体系统的训练模式,以解锁更复杂的群体决策能力。
AgentGym-RL 框架已全面开源,期待与全球研究者携手,共同推动下一代智能体的发展,让人工智能在现实世界中展现出更卓越的 「行动力」!
本研究得到了华为昇腾 AI 处理器的算力支持。在昇腾和开源社区的努力下,诸多大模型训练框架均已支持昇腾 AI 处理器。此外,昇腾联合 vllm 社区推出了 vllm-ascend 框架,极大提升了百亿乃至千亿级参数量的大模型在国产算力上的推理效率。在本研究中,昇腾 910B NPU 在多个实验阶段中发挥作用 ,提高了研究效率。
#3000亿美元OpenAI大单
让世界首富位置换人了
甲骨文正在美国全国开建 AI 基础设施,可能还要贷款买 GPU。
昨晚,老牌科技公司甲骨文(Oracle)突然成为了全球关注的焦点。
该公司发布了截至 8 月 31 日的 2026 财年第一财季业绩:总营收 149 亿美元,同比增长约 12%,低于市场预期,但剩余的履约义务(RPO,即未交付合同总值)达到 4550 亿美元,同比暴增 359%。
这家软件巨头报告说,受人工智能算力需求驱动,其云业务收入到 2030 财年将跃升至 1440 亿美元,较当前财年不到 200 亿美元的业务预测有大幅增长。
受该消息影响,甲骨文股票直接涨了超过 35%。
现年 81 岁的甲骨文联合创始人拉里・埃里森(Larry Ellison)的身家瞬间增加 1000 亿美元,一度飙升至 3930 亿美元,超越了埃隆・马斯克(3850 亿美元),成为全球首富。
不过在当天收盘时,甲骨文股价稍稍回撤,马斯克再次领先。
埃里森拥有甲骨文高达 41% 的股份。
马斯克在商界树敌众多,埃里森也饱受恶评,不过埃里森却被认为是马斯克的人生导师,两人关系很好。埃里森在 2018 年至 2022 年期间担任过特斯拉董事会成员,并向马斯克收购推特(Twitter,现 X)注资了 10 亿美元。
据《华尔街日报》等媒体报道,甲骨文所说的未交付大单,很大一部分来自于 OpenAI。知情人士称,OpenAI 与甲骨文签署了一份合同,将在大约五年内购买价值 3000 亿美元的算力,该合约远远超出了 OpenAI 目前的收入。
这将是有史以来最大的云计算合同,甲骨文将需要 4.5 千兆瓦的电力容量,大致相当于四百万户家庭的用电量。
OpenAI 与甲骨文的合同将于 2027 年开始生效,未来还有很多不确定性。迄今为止,OpenAI 还没有进入盈利阶段。该公司于 6 月份披露,其年收入约为 100 亿美元,不到其平均每年需支付的 600 亿美元成本的五分之一。
在另一边,在新合同签署后,甲骨文未来收入的很大一部分会集中在单一客户身上,其可能还要举债购买数据中心所需的 AI 芯片。
甲骨文在 6 月份提交的一份文件中首次透露了这笔交易,当时它披露已达成一项云服务协议,该协议将使其自 2027 年起每年获得超过 300 亿美元的收入。随着更多数据中心的上线,这家云计算巨头将从 OpenAI 处获得更多的年度收入。OpenAI 在 7 月份宣布与甲骨文达成了一项 4.5 千兆瓦的电力协议,但并未透露合同的具体规模。
OpenAI 的巨额投入延续了 CEO 山姆・奥特曼长期以来的激进理念。除了搞 AI 基础设施建设,他还试图与博通合作开发定制 AI 芯片,打造一款 iPhone 竞争对手,这让 OpenAI 的烧钱速度远超所有初创公司。去年秋天,奥特曼还曾告诉投资者,OpenAI 要到 2029 年才能盈利,并预计在此之前将亏损 440 亿美元。
不论是新一代 AI 模型的研发还是大规模技术落地,OpenAI 面临的最大挑战一直是计算资源的短缺。这也是整个 AI 行业正在面临的问题。摩根士丹利 (Morgan Stanley) 表示,从今年到 2028 年,科技巨头在芯片、服务器和数据中心基础设施的支出预计将达到 2.9 万亿美元。
仅看 OpenAI,甲骨文与 OpenAI 的合作并非首次。自 2024 年夏天起,OpenAI 开始通过甲骨文获取计算服务。2025 年 1 月,OpenAI 进一步扩大了供应渠道,不再单独依赖主合作方微软的 Azure 作为唯一云服务提供商。为满足激增的算力需求,OpenAI 甚至在今年春季与竞争对手谷歌签署了云服务合同。
OpenAI 在算力上的大项目,就是其与软银合作的 5000 亿美元「星际之门」(Stargate)项目。OpenAI 表示,「星际之门」是其所有数据中心业务的品牌,甲骨文的交付被视为「星际之门」的一部分。
基于这个计划,甲骨文正在与数据中心建设商 Crusoe 等公司合作。据知情人士透露,他们计划在全美多个州建立数据中心。
在硅谷,甲骨文被视为「上个时代的恐龙」。该公司成立至今已有 48 年,业务主要围绕数据库等企业级软件服务。直到 2016 年,该公司才将云计算视为其未来的重要发展战略。
在 2021 年,甲骨文开始大幅度转型,对产品进行云化重构,并投入大量资金加强云业务,又一次走上了发展的快车道。但由于云计算领域竞争激烈,有亚马逊、微软、谷歌等大玩家,甲骨文在行业内的地位并不稳固。就在最近几周,甲骨文还宣布进行大规模裁员,计划在全球削减 3000 多个工作岗位,减少涵盖了云基础架构,企业软件和公司功能的职位。
OpenAI 的大单或许可以一举改变云计算领域的态势,不过要说在 AI 时代卖铲子,最终的获益人可能还是英伟达。
就在甲骨文拿下大单的同时,有人翻出了去年底拉里・埃里森在演讲中的一段话:我和马斯克一起找黄仁勋吃饭,恳请他提供更多 GPU。
,时长02:56
参考内容:
https://techcrunch.com/2025/09/10/openai-and-oracle-reportedly-ink-historic-cloud-computing-deal/
.
#ST-Raptor
攻克大模型「表格盲区」!框架发布,实现复杂半结构化表格的精准理解与信息抽取
本工作核心作者为汤子瑞(上海交通大学)、牛博宇(上海交通大学)。合作者为李帛修、周炜、王健楠、李国良、张心怡、吴帆。通讯作者为上海交通大学计算机学院博士生导师周煊赫。团队长期从事人工智能与数据交叉研究。
半结构化表格是我们日常工作中常见的 “拦路虎”—— 布局五花八门、结构复杂多变,让自动化数据处理变得异常困难。
面对这样的挑战,传统的表格处理工具往往力不从心。研究发现,现有的大模型以及表格理解领域模型在 NL2SQL / 结构化表格已经有了较好的效果(准确率超 80%),但是在那些诸如金融报表、库存表、企业管理表等具有合并单元格、嵌套表格、层次结构等特征的复杂半结构化表格上表现明显退化。
为了解决这一痛点,来自上海交通大学计算机学院、西蒙菲莎大学、清华大学、中国人民大学的合作团队,带来基于树形框架的智能表格问答系统(ST-Raptor),其不仅能精准捕捉表格中的复杂布局,还能自动生成表格操作指令,并一步步执行这些操作流程,最终准确回答用户提出的问题 —— 就像给 Excel 装上了一个会思考的 “AI 大脑”。
目前,该论文已被数据库领域国际顶尖学术会议 ACM SIGMOD 2026 接收。
论文标题:ST-Raptor: LLM-Powered Semi-Structured Table Question Answering
论文链接:https://arxiv.org/abs/2508.18190
项目仓库:https://github.com/weAIDB/ST-Raptor
该项目发布后得到广泛关注与转发:
现有的 NL2SQL 方法需要将半结构化表格转换为结构化表格处理,这通常会导致大量的信息丢失。此外,现有的 NL2Code 和多模态 LLM 问答都无法准确捕捉半结构化表格独特的信息组织方法,因此无法准确回答相应的问题。下图展示了一些基线方法在半结构化表格问答上的表现。在总共 100 个问题的回答中,大模型的错误率均较高,且其在涉及到表格结构理解,数据获取,问题推理三方面表现均不佳。
准确率低的原因主要由于以下几点:(1)半结构化表格结构个性化程度高,结构复杂多样且隐含了部分语义信息,大模型难以捕捉到布局的微妙之处。(2)在进行表格数据检索时,模型容易产生幻觉,造成失真。(3)模型对问题的理解能力不足,不能从表格里获取解决问题需要的信息。
HO-Tree
创新性的半结构化表格表示方案
为了定制解决半结构化表格信息的复杂分布问题,本文提出了层次正交树(HO-Tree)这一数据结构。HO-Tree 由 Meta Tree(MTree)和 Body Tree(BTree)嵌套组合形成,其中 MTree 代表了表头中的元数据,BTree 代表了表内容中的信息数据。
上图展示了构建 HO-Tree 的基本步骤。对于一个 excel 表格,首先将表内容转化为 HTML 格式并渲染,接着用 VLM 提取图片中的表头信息,在对齐后得到元信息组。接着,根据得到的元信息将表格进行分层级的区域划分,最后根据这一层级得到 HO-Tree。通过这一步骤,半结构化表格被转化为了计算机易于操作的数据形式,为后续处理提供了便利。
树上操作与流程设计
精准回答问题的 “手术刀”
在建构好 HO-Tree 之后,本文继续设计了一套在树上进行检索的操作,通过迭代地使用这些操作,LLM 可以按步骤分析表格,最终获取信息回答问题。这些操作可以分为以下四类:
- 数据获取操作:可以获取树上子节点,父节点等信息,递归地进行数据获取操作可以有效去除冗余信息,得到回答问题所必要的信息。
- 数据处理操作:根据问题需要的形式,将得到的数据进行处理(如求和,计数,按条件筛选等)。
- 对齐操作:将过程中的信息和表格内容进行对齐,增强检索时的健壮性。
- 推理操作:将获取的最终答案和问题进行对齐,得到满足格式要求的最终答案输出。
这些操作可以帮助 LLM 以直观的方法获取数据,分析表格,并且以可信的方式得到最终答案。结合这些操作,可以搭建一套流水线回答问题。如下图例子所示,在得到问题后,ST-Raptor 将其拆解为三个子问题,通过预定义的树上操作进行搜索,处理,最后经过推理得到答案。
实验结论
现有的表格数据集大多以结构化为主,一些半结构化的数据集也都并不涉及复杂嵌套关系,和真实情境不符。因此,本文构建了一个半结构化表格数据集 SSTQA,共有 102 张复杂的真实情境表格和 764 个针对这些表格的问题,总共包含了 19 个代表性的真实场景。如下图所示,在 SSTQA 上,ST-Raptor 相较其余方法而言,取得了很高的准确率提升,尤其是在结构复杂困难的表格上远超其余方法。
在其余两个半结构化表格问题数据集 WikiTQ 和 TempTabQA 上的测试结果如下表所示,ST-Raptor 准确率位于榜首,展现出了优秀的泛化能力。
综上所述,ST-Raptor 提供了一套行之有效的半结构化表格问答解决方案,为现实生活中的半结构化表格自动化处理提供了新思路。通过挂载 ST-Raptor,LLM 可以增加对半结构化表格的理解能力和分析能力,提升表格问答的准确性。在未来,可以优化 HO-Tree 的表示和创建,使其囊括更多复杂表格;同时可以定制更多树上操作,使问题回答更流畅便捷。
ST-Raptor 立足于表格结构解析这一核心挑战,有效弥补了大语言模型在处理二维表格结构时的能力短板,能够直接支持包括 Excel 在内的多种复杂半结构化表格输入。尽管如此,现实场景中的半结构化表格仍普遍存在格式不规范、布局多样、语义歧义以及跨表关联等复杂问题,值得在模型架构、语义理解与泛化能力等方面展开长期而深入的探索。
..
#0用户0产品估值850亿
ChatGPT之母&翁荔团队发布首个AI成果:真凶就是Batch
由前OpenAI CTO Mira Murati创立的Thinking Machines Lab首次发声,他们发布的DanceGRPO技术为LLM推理中的不确定性问题提供了解决方案。这项技术通过确保模型在面对相同输入时始终产生一致的输出,为强化学习等高级AI技术的发展铺平了道路。
家人们,你敢信吗?
一家成立仅半年,0 产品、0 用户的初创公司,估值已经飙到了 120 亿美元(约合人民币 850 亿)!
你没听错,数字是真的,事儿也是真的。这家公司,就是由前 OpenAI CTO、被誉为“ChatGPT 之母”的 Mira Murati 创办的——Thinking Machines Lab(TML)。
今天这个神秘的“天价”团队,终于打响了它的第一枪,Mira Murati 亲自在推特官宣,发布了公司的第一篇博客文章——
《Defeating Nondeterminism in LLM Inference》
中译:《克服 LLM 推理中的不确定性》
博客链接:https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
这篇博客是公司的新栏目 “Connectionism”(连接主义) 的首秀,TML 公司表示他们将频繁分享研究与代码:
要做真正的 Open 的 AI 呗,在阴阳谁我不说 ~
TML 联合创始人&著名技术博主 Lilian Weng 翁荔(也是 OpenAI 前研究与安全副总裁 VP) 随后转推,暗示了“Connection Machine”的存在。
(不知道这会不会是他们未来产品的名字!)
而这篇开山之作文章的核心作者,正是刚从 Meta 离职的 PyTorch 核心开发者 Horace He。
他要挑战的,正是那个让无数开发者头疼的难题:为什么与大模型的对话,总像在“开盲盒”?
问题定位
但是理论上,所有开发者都知道的另一个事实,就是将温度系数(temperature)设为零,彻底关掉随机性。而这时的输出,本应像“1+1=2”一样,是绝对稳定可预测的。
它还是会变。
这个“通病”让模型评测变得困难,让调试过程如同噩梦,更让那些需要绝对确定性的下游应用(如强化学习、代码生成)也很头疼。
在此之前,社区有一个广为流传的关于这个“通病”的主流假说—“并发 + 浮点”理论。
懂计算机 float 运算的小伙伴,这其实很好理解。
第一,是浮点计算的非结合性导致的,由于计算机存在舍入误差,数学上 (a+b)+c = a+(b+c) 的绝对相等,在浮点数世界里会变成约等,而计算顺序的改变,会带来结果上“位级别”的微小差异。
第二,是GPU并行计算决定的:为了追求极致速度,GPU 会同时派出成百上千个核心(kernel)去执行求和等归约操作。谁先算完、谁后算完,这个计算的顺序在每次运行时都是不可预测的。
当上面这两个随机不可控撞在一起,偏差就出现了。
这一点点偏差,就足以让模型在某个关键的“岔路口”做出不同选择,从而生成不同的输出结果。
不过,Thinking Machines Lab 发布的《克服 LLM 推理中的不确定性》论文博客提出了质疑。
他们认为,问题不在“有没有并行/浮点”。
看看他们是怎么论证的?
首先研究团队做了一个简单的实验:
在 GPU 上,反复对相同的数据做同一个 matmul (矩阵乘法),结果在位级别上是完全确定的。
如果之前主流假说成立,即并发计算必然导致随机性,那么这里也应该出现不一致。
研究团队另外提到,在典型的 LLM 前向传播中,为了性能与稳定性,所采用的底层计算内核(Kernels)已经主动避免了使用那些会引入 running-time 不确定性的技术,例如跨线程块的原子加法。
原子加法操作虽然能保证并发计算结果的完整性,但硬件并不保证这些计算的累加顺序。这种顺序的随机性是“原子操作”与生俱来的特性,一旦算法依赖它,几乎必然会导致非确定性。
但是,目前 LLM 前向传播的核心环节(如矩阵乘法、层归一化)并不涉及这类原子操作。
这意味着,LLM 的前向过程本质上是 running-time 确定的,即对于固定的输入,无论运行多少次,它都会产生完全相同的位级别输出。
所以 TML 的研究团队,认为不确定性来自什么时候归约顺序会被改写。
所以论文将矛头指向了一个更高阶的系统设计缺陷:批次不变性 (Batch Invariance) 的缺失。
“批次不变性”是指:
一个数据样本的计算结果,不应受到其所在处理批次(batch)的大小或批次中其他样本内容的影响。
那通俗地说:
你向 AI 提问,得到的结果,理论上不应该因为和你一同被处理的还有 3 个人还是 30 个人(即批次大小)而有所不同。
但在现实的推理服务器上,正是推理 inference 阶段的存在的问题,为了效率这个原则被打破了:
- 服务器负载是随机的,你永远不知道在你提问的那一刻,服务器上还有多少并发请求。
- 动态批处理,为了让 GPU 不“挨饿”,服务器会把短时间内收到的多个请求“打包”成一个批次(Batch)再处理。
- 批次大小(Batch Size)变得随机,你的请求这次可能被分入一个大小为 4 的批次,下次可能是大小为 16 的批次。
- 计算策略为性能而动态切换,底层的计算内核(Kernel)为了在任何批次大小下都跑出最快速度,被设计得极其“智能”:它会根据批次大小,动态选择最优的计算策略。
解决问题
定位到问题后,研究团队认为解决方案也就清晰了:
强制计算内核(Kernels)使用固定的策略,牺牲一部分针对特定情况的极致性能优化,以换取计算路径的绝对一致性。
论文展示了如何对 Transformer 模型的三个核心模组进行改造:
RMSNorm
RMSNorm 的改造相对直接,它的标准并行化策略是“数据并行”,即为批次中的每个序列(sequence)分配一个 GPU 的计算单元(线程块/SM)。这种策略在批次较大时(例如,批次大小超过 GPU 核心数)效率很高。但当批次很小时,大量计算单元会处于空闲状态,造成严重的性能浪费。
为了解决小批次下的效率问题,高性能计算内核会采取一种“自适应”策略:它会动态检测到核心空闲,并立刻改变并行模式,不再一个核心处理一个序列,而是用多个核心协同处理一个序列。
这种“分裂式规约”为了合并结果,引入了额外的跨核心通信和求和步骤,彻底改变了原始的计算顺序,从而破坏了批次不变性。
最直接的解决方案就是禁用这种自适应并行策略,开发者必须选择并固定一种对所有批次大小都适用的归约策略。
矩阵乘法
矩阵乘法(Matmul)的非不变性来源更为复杂:
- Split-K 策略: 与 RMSNorm 类似,对于某些矩阵形状(特别是当批次维度 M 和 N 较小,而需要累加的 K 维度较大时),为了创造更多并行任务让 GPU“忙起来”,一种常见的优化是“Split-K”。它将 K 维度切分成多块,分配给不同核心并行计算,最后再将各部分结果相加。这种“先分后总”的模式,从根本上改变了加法顺序。
- 张量核心指令的动态选择: 现代 GPU 库中,包含一个庞大的、针对不同硬件和数据类型高度优化的计算函数库。在运行时,一个“启发式调度器”会根据输入张量的具体形状,动态地选择一个它认为最快的函数实现。批次大小的微小改变,就可能导致调度器选择一个完全不同的底层函数,而不同函数的内部计算顺序可能天差地别。
解决方案是放弃这种动态调度和优化。
开发者为模型中遇到的所有矩阵乘法形状,编译并指定一个固定的计算内核配置(固定的 tile 大小、固定的并行策略,并明确禁用 Split-K)。
这牺牲了针对特定形状的极致性能优化,以换取一条稳定不变的计算路径。但是幸运的是,在 LLM 推理场景下,模型维度通常很大,禁用 Split-K 等优化的性能损失通常在可接受范围内。
注意力机制
注意力机制的确定性改造更困难,因为它引入了全新的复杂维度:
- 跨序列维度归约: 注意力的核心是计算查询(Query)与键(Key)的点积,这涉及在序列长度维度上的归约,而序列长度本身是动态变化的。
- 与推理优化的深度耦合: 在 vLLM 等现代推理引擎中,为了高效管理内存,使用了分页 KV 缓存(Paged KV Cache)等复杂技术,注意力计算必须与这些动态变化的内存布局进行交互。
因此研究团队希望的是,对于任意一个给定的查询 token,无论它是在预填充阶段与数百个其他 token 一同处理,还是在解码阶段单独处理,其最终的注意力计算结果必须完全相同。
于是,研究团队提出了一个两阶段的确定性解决方案:
- 确保一致的内存布局: 在调用注意力计算函数之前,推理引擎必须先更新 KV 缓存和相应的页表,确保无论处理上下文如何(预填充或解码),键(Key)和值(Value)张量在内存中的布局都是一致的。这从源头上消除了因内存访问模式不同而引入的差异。
- 针对 Split-KV 的“固定拆分大小”策略: 在解码阶段,查询长度通常为 1,此时为了保持 GPU 繁忙,几乎必须沿 KV 序列长度维度进行并行化(即“Split-KV”)。
传统做法(非确定性):根据当前批次的总工作量,动态地将 KV 序列切分成最合适的块数,以期最大化并行度。这种做法使得切分方式依赖于批次大小,从而破坏了不变性。
而论文提出的是新做法是采用“固定拆分大小”(fixed split-size)策略,不再固定切分的数量,而是固定每个切分块的大小(例如,固定为 256 个 token)。
一个长度为 1000 的 KV 序列,将被确定性地切分为 3 个大小为 256 的块和 1 个大小为 232 的块,确保归约的结构完全独立于批次中的其他请求,从而完美地保持了批次不变性。
实验论证
论文设计了一系列实验,极其直观地展示了其解决方案的有效性,并量化了实现确定性所需付出的代价。
生成结果对比
为了让读者直观感受“非确定性”的严重程度,研究团队进行了一项生成实验。实验场景: 使用 Qwen 模型,将 temperature 设为 0,对提示词“Tell me about Richard Feynman”进行 1000 次采样。测试模型:
- 标准 vLLM(非确定性):1000 次运行,竟产生了 80 个不同的输出版本。大部分(992 次)结果在前 102 个词元后生成了“Queens, New York”,而少数(8 次)结果则生成了“New York City”。这清晰地表明,差异并非随机噪声,而是由系统非不变性触发的、微小但具有决定性的计算路径分叉。
- 确定性 vLLM(改造后): 全部 1000 次采样,生成了完全相同、逐位一致的唯一结果。
性能代价
那换取这种 100% 的可靠性,代价是什么?
研究团队设置了一个 API 服务器,其中一台 GPU 运行 Qwen-3-8B,并请求 1000 个序列,输出长度在 90 到 110 之间。
结果发现:通过牺牲约 13.5% 的峰值吞吐量,可以换来 100% 的生成结果可复现性。
结语
Thinking Machines Lab 的这篇文章,可以是一次系统工程探索。
一句话总结这篇技术博客的核心意思:在固定 kernel 配置下,许多算子/库是运行到运行可复现的;真正让线上端点“同样输入 → 不同输出”的主因是端点负载变化 → 批量大小变化 →(非批次不变的)内核改变归约顺序。
它的价值有两点的:
在应用层面,它为强化学习等高级 AI 技术的发展清除了一块危险的基石,换上了一块稳固的基石;
在理念层面,它在这个日益追求“大力出奇迹”的 AI 时代,高声呼唤着工程严谨性的回归。作为这支复仇者联盟首次公开的技术亮相,不仅充分证明了团队能力,更彰显了他们的雄心:他们不只想现在的棋盘上多落一子,他们想的是重新定义棋盘的规则!
系统的可预测性与绝对可靠性,必须优先于对峰值性能的极致追求。一个无法保证 100% 一致性的系统,其基础是不牢固的。
#姚顺雨离职OpenAI
「亿元入职腾讯」传闻引爆AI圈,鹅厂辟谣了
姚顺雨加入腾讯了?已被辟谣。
昨天,有消息称,OpenAI 著名研究者、清华校友、著名博客《AI 下半场》的作者姚顺雨已经加入了腾讯混元大模型团队,并且还传言说他将在这里组建一支自己领导的研究团队。
这一消息瞬间点燃了 AI 社区,「年薪 1 亿」的传闻更是让话题迅速升温。
相关的内容也是越传越全面,根据小红书用户 @Top华人科创社区 的贴文,有网友透露,姚顺雨上周已经来腾讯开会了。
不过,今早鹅厂黑板报已正式辟谣,否认了相关说法。但也有网友追问:辟谣的是「没加入」,还是「没有上亿薪酬」?
不过谣言也并非空穴来风,据多个信息源表示,姚顺雨确已从 OpenAI 离职。
如今 AI 人才争夺战确实日趋激烈。海外,Meta 的扎克伯格高调抛出「上亿年薪」挖角各个公司的顶尖研究员;国内,各大厂同样全力加码,力求稳住核心团队。可以预见,类似的风声还会不断出现。
从清华学霸到 OpenAI
姚顺雨,毕业于清华姚班,普林斯顿大学计算机科学博士,2024 年 8 月加入 OpenAI。
在加入 OpenAI 之前,他就已经在语言智能体领域做出了一系列开创性的工作:
- 使 AI 通过多路径推理解决复杂问题的 ToT(思维树);
- 让 AI 在推理中动态行动的 ReAct;
- 为 AI 智能体提供模块化的认知架构的 CoALA。
此外,他还参与构建了著名软件工程基准 SWE-Bench 和模拟电子商务网站环境 WebShop,推动了 AI 智能体的发展。截至目前,姚顺雨的论文总引用量已经超过了 1.5 万。
姚顺雨于 2024 年 8 月加入 OpenAI,至今已有 1 年 4 个月,目前他的领英主页尚未更新。
在 OpenAI 期间,他担任研究科学家,专注于将大型语言模型从理论研究推向实际应用,特别是 AI Agent 的开发。
他主导开发了 OpenAI 首个发布的智能体模型及产品,Computer-Using Agent (CUA),致力于创建与数字世界交互的通用 AI 智能体。同时,他参与了 Deep Research 项目。
事实上,早在 GPT-2 刚兴起时,他就预见了语言模型的潜力,率先研究如何将其转化为「会思考的 Agent」,展现了惊人的学术前瞻性。
作为内部研究负责人,他推动了 OpenAI 与 Jony Ive(前苹果首席设计师)及其公司 LoveFrom/IO 的战略合作。该合作旨在探索无屏幕、上下文感知的新型 AI 硬件设备,他已领导相关研究工作近一年。
整体而言,姚顺雨在 OpenAI 的工作继承并扩展了他在普林斯顿大学博士期间(如 ReAct、Tree of Thoughts)的研究,致力于推动 AI 在真实数字世界中的自动化与应用。
今年 4 月,姚顺雨发表的博客文章《The Second Half》,提出了「AI 下半场」的概念,被广泛认为是 AI 研究范式转折的标志性论述,其核心理论是 AI 领域正在从「训练更强的模型」转向「定义和评估真正有用的任务」。
他写道:「我认为我们应该从根本上重新思考评估。这不仅意味着创造新的和更难的基准测试,而是从根本上质疑现有的评估设置并创造新的,这样我们就会被迫发明超越现有方案的新方法。」
2024 年,27 岁的姚顺雨入选《麻省理工科技评论》「35 岁以下科技创新 35 人」中国区榜单,成为该届最年轻入选者。
图源:https://tr35.mittrchina.com/annual-winner?title=2024
除科研外,他还是清华大学学生说唱社联合创始人、姚班联席会主席。
这位年轻的研究科学家之后又将给我们带来怎样的新惊喜?值得期待。
..
#Qwen3-Next
全新MoE架构!阿里开源,训练成本直降9成
训练、推理性价比创新高。
大语言模型(LLM),正在进入 Next Level。
周五凌晨,阿里通义团队正式发布、开源了下一代基础模型架构 Qwen3-Next。总参数 80B 的模型仅激活 3B ,性能就可媲美千问 3 旗舰版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,实现了模型计算效率的重大突破。
新模型立即在 Qwen.ai 上线,并上传了 HuggingFace。
- 新模型网页版:https://chat.qwen.ai/
- HuggingFace:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
- Kaggle:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b
Qwen3-Next 针对大模型在上下文长度扩展(Context Length Scaling)和参数量扩展(Total Parameter Scaling)的未来趋势而设计。通义团队表示,其模型结构相较 4 月底推出的 Qwen3 的 MoE 模型新增了多种技术并进行了核心改进,包括混合注意力机制、高稀疏度 MoE 结构、一系列提升训练稳定性的优化,以及提升推理效率的多 token 预测(MTP)机制等。
模型结构示意图:
通义团队介绍了新架构使用的一些机制。
- 混合架构:Gated DeltaNet + Gated Attention
线性注意力打破了标准注意力的二次复杂度,在处理长上下文时有着更高的效率。通义团队发现,单纯使用线性注意力或标准注意力均存在局限:前者在长序列建模上效率高但召回能力弱,后者计算开销大、推理不友好。
通过系统实验,人们发现 Gated DeltaNet 相比常用的滑动窗口注意力(Sliding Window Attention)和 Mamba2 有更强的上下文学习(in-context learning)能力,并在 3:1 的混合比例(即 75% 层使用 Gated DeltaNet,25% 层保留标准注意力)下能一致超过超越单一架构,实现性能与效率的双重优化。
在保留的标准注意力中,通义进一步引入多项增强设计:
(1)沿用先前工作中的输出门控机制,缓解注意力中的低秩问题;
(2)将单个注意力头维度从 128 扩展至 256;
(3)仅对注意力头前 25% 的位置维度添加旋转位置编码,提高长度外推效果。
- 极致稀疏 MoE:仅激活 3.7% 参数
Qwen3-Next 采用了高稀疏度的 Mixture-of-Experts (MoE) 架构,总参数量达 80B,每次推理仅激活约 3B 参数。实验表明,在使用全局负载均衡后,当激活专家固定时,持续增加专家总参数可带来训练 loss 的稳定下降。
相比 Qwen3 MoE 的 128 个总专家和 8 个路由专家,Qwen3-Next 扩展到了 512 总专家,10 路由专家与 1 共享专家的组合,在不牺牲效果的前提下最大化资源利用率。
- 训练稳定性友好设计
通义团队发现, 注意力输出门控机制能消除注意力池与极大激活等现象,保证模型各部分的数值稳定。Qwen3 采用了 QK-Norm,部分层的 norm weight 值会出现异常高的情况。为缓解这一现象,进一步提高模型的稳定性,通义在 Qwen3-Next 中采用了 Zero-Centered RMSNorm,并在此基础上对 norm weight 施加 weight decay,以避免权重无界增长。
通义还在初始化时归一化了 MoE router 的参数,确保每个 expert 在训练早期都能被无偏地选中,减小初始化对实验结果的扰动。
- Multi-Token Prediction
Qwen3-Next 引入原生 Multi-Token Prediction (MTP) 机制,既得到了 Speculative Decoding 接受率较高的 MTP 模块,又提升了主干本身的综合性能。Qwen3-Next 还特别优化了 MTP 多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的 Speculative Decoding 接受率。
通义千问大模型负责人林俊旸在 X 上分享了新一代模型开发的细节。他表示团队已经在混合模型和线性注意力机制上进行了大约一年的实验。新的解决方案应该足够稳定可靠,能够应对超长上下文。
Gated DeltaNet 加混合是经过大量尝试和错误才实现的,而 Gated Attention 的实现就像是免费的午餐,可以获得额外好处。
得益于创新的混合模型架构,Qwen3-Next 在推理效率方面表现出显著优势。与 Qwen3-32B 相比,Qwen3-Next-80B-A3B 在预填充(prefill)阶段展现出卓越的吞吐能力:在 4k tokens 的上下文长度下,吞吐量接近前者的七倍;当上下文长度超过 32k 时,吞吐提升更是达到十倍以上。
在解码(decode)阶段,该模型同样表现优异 —— 在 4k 上下文下实现近四倍的吞吐提升,而在超过 32k 的长上下文场景中,仍能保持十倍以上的吞吐优势。
基于 Qwen3-Next 的模型结构,通义团队训练了 Qwen3-Next-80B-A3B-Base 模型,该模型拥有 800 亿参数(仅激活 30 亿参数),实现了与 Qwen3-32B dense 模型相近甚至略好的性能,同时训练成本(GPU hours) 仅为 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐则是 Qwen3-32B 的十倍以上,实现了极致的训练和推理性价比。
通义团队开源了 Qwen3-Next-80B-A3B 的指令(Insctruct)模型和推理(Thinking)两款模型。新模型解决了混合注意力机制 + 高稀疏度 MoE 架构在强化学习训练中长期存在的稳定性与效率难题,实现了 RL 训练效率与最终效果的双重提升。
在编程(LiveCodeBench v6)、人类偏好对齐 (Arena-Hard v2) 以及综合性能力 (LiveBench) 评测中,Qwen3-Next-Instruct 表现甚至超过了千问的开源旗舰模型,并在包含通用知识(SuperGPQA)、数学推理(AIME25)等核心测评中全面超越了 SOTA 密集模型 Qwen3-32B;Qwen3-Next-Thinking 则全面超越了 Gemini2.5-Flash-Thinking,在数学推理 AIME25 评测中获得了 87.8 分。而达到如此高水平的模型性能,仅需激活 Qwen3-Next 总参数 80B 中的 3B。
目前,Qwen3-Next 模型也已经在很多第三方平台中上线。
使用新模型在 anycoder 中的 vibe coding 示例:
#EviNote-RAG
告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
本文第一作者戴语琴,清华大学博士生。该工作为戴语琴在蚂蚁大安全实习期间完成,该工作属于蚂蚁集团大安全 Venus 系列工作,致力于打造搜索智能体 / UI 智能体。本文通讯作者为该校副教授吕帅,研究方向包括大语言模型、多模态生成、AI4Design。共同通讯作者沈永亮,浙江大学百人计划研究员,博士生导师,研究方向包括大模型推理、RAG 检索增强生成、多模态生成模型等。
在检索增强生成(RAG)飞速发展的当下,研究者们面临的最大困境并非「生成」,而是「稳定」。
低信噪比让关键信息淹没在冗余文档里,错误累计则让推理链像骨牌一样层层坍塌。这两大顽疾,使得现有 RAG 系统在复杂任务中难以真正可靠。
近期,一项由蚂蚁集团、清华大学、浙江大学、MIT、UC Berkeley、香港大学和新加坡国立大学等机构联合完成的研究提出了全新方案——EviNote-RAG。它不仅在多个权威基准上实现了显著性能提升,更在训练稳定性与推理可靠性上带来了质的飞跃。
核心秘诀在于两个创新:
- 支持性证据笔记(Supportive-Evidence Notes, SEN):像人类一样「先做笔记」,用结构化方式过滤噪声、标记不确定信息。
- 证据质量奖励(Evidence Quality Reward, EQR):通过逻辑蕴含监督,确保笔记真正支撑答案,避免浅层匹配和错误累积。
这一组合带来的改变是革命性的:训练曲线不再震荡,答案推理更加稳健。消融与补充实验进一步验证了这一点——SEN 是性能提升的基石,而 EQR 则是质量提升的关键。两者相辅相成,使 EviNote-RAG 成为当前最稳定、最可信赖的 RAG 框架之一。
换句话说,EviNote-RAG 不仅解决了性能问题,更为复杂推理场景下的检索增强开辟了一条全新的发展路径。
在多个开放域问答基准上,EviNote-RAG 取得了显著突破:
- 在 HotpotQA 上相对提升 20%(+0.093 F1 score),
- 在 Bamboogle 上相对提升 40%(+0.151 F1 score),
- 在 2Wiki 上相对提升 91%(+0.256 F1 score),不仅刷新了当前最优表现,还表现出更强的泛化能力与训练稳定性。
- 论文标题:EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes
- 论文地址:https://arxiv.org/abs/2509.00877v1
- Github 地址:https://github.com/Dalyuqin/EviNoteRAG
研究背景与动机
在如今这个信息爆炸的时代,检索增强生成(RAG)技术已经成为大型语言模型(LLM)在开放问答(QA)任务中的得力助手。通过引入外部知识,RAG 能够有效提升回答的准确性和时效性。
但一个现实问题是:LLM 的知识固定在训练时刻,容易输出过时甚至错误的信息。于是,检索增强生成(RAG)被提出:在问答时,从外部知识库中检索最新信息,辅助模型生成更准确的答案。然而,现有 RAG 系统依然存在两个核心痛点:
- 低信噪比。在开放域检索场景中,真正与答案相关的证据信息往往稀缺且难以识别,大量无关或冗余内容充斥在检索结果中,导致模型在有限的上下文窗口里难以高效聚焦关键信息。
- 错误累计。当推理跨越不完整或噪声证据时,错误会在多跳链路中层层放大,最终严重削弱答案的准确性和稳定性。这一问题在多跳问答场景中尤为突出。
过去的研究尝试通过改进检索质量、引入重排序或摘要压缩、以及对特定语料进行监督微调来缓解上述问题。虽然这些方法在一定程度上降低了噪声、减轻了推理负担,但它们普遍依赖标注的信息提取数据或外部启发式规则,缺乏一种端到端、稳健且可泛化的解决路径。如何从根本上突破低信噪比与错误累计这两大瓶颈,成为推动 RAG 演进的核心动因。
因此,研究者提出了新的框架——EviNote-RAG。
EviNote-RAG 与传统方法的对比:EviNote-RAG 通过证据注释提取关键信息,并在蕴意法官的指导下,确保保留的内容直接支持答案,从而减少噪音并提高性能。
传统的「检索-回答」范式不同,EviNote-RAG 将流程重构为「检索-笔记-回答」的三阶段结构。
在这一框架中,模型首先生成 Supportive-Evidence Notes(SENs)——类似人类笔记的精简摘要,仅保留与答案相关的关键信息,并对不确定或缺失的部分进行明确标注。这一过程有效过滤了无关内容,从源头上缓解了低信噪比问题。
进一步地,EviNote-RAG 通过引入 Evidence Quality Reward(EQR)——基于逻辑蕴含的奖励信号,对 SEN 是否真正支撑最终答案进行评估和反馈。这一机制促使模型避免依赖浅层匹配或片段化证据,从而大幅减轻了错误累计的风险。
得益于 SEN 与 EQR 的协同作用,EviNote-RAG 不仅在多个开放域问答基准上实现了显著性能提升,还在训练稳定性、泛化能力与推理可靠性方面表现突出,真正为解决 RAG 的两大顽疾提供了一条端到端的可行路径。
技术亮点
检索-笔记-回答新范式:不再直接依赖原始检索结果,而是通过结构化的笔记生成,主动过滤干扰信息,增强证据利用率。
类人笔记机制:SEN 模块模仿人类做笔记的习惯,用「*」标记关键信息,用「–」标记不确定信息,避免模型被误导。
逻辑蕴含驱动的奖励信号:引入轻量级自然语言推理模型作为「蕴含判别器」,确保笔记能够逻辑上支撑最终答案,从而在训练中提供更密集、更高质量的奖励信号。
EviNote-RAG 概述:为了提高信息利用率,该方法引入了一个记录阶段,在这个阶段,模型生成支持性证据笔记(SENs),这些笔记只捕获回答所需的信息。基于蕴涵的证据质量奖励(EQR)进一步确保每个注释忠实地支持最终答案,引导模型走向更准确和基于证据的推理。
实验表现
在 7 个主流 QA 基准数据集上测试了 EviNote-RAG,涵盖了 in-domain(同分布任务)和 out-of-domain(跨域任务)两大类。评价指标包括 F1 和 EM(Exact Match)。
结果非常亮眼:在 HotpotQA(多跳推理任务)上相比基础模型,F1 提升 +0.093(20%);在 Bamboogle(跨域复杂 QA)上 F1 提升 +0.151(40%);在 2Wiki(多跳跨域 QA)上 F1 提升 +0.256(91%)。
Training Dynamics:
从不稳定到稳健,RAG 训练的新范式
在传统 RAG 框架中,训练往往充满不确定性:奖励稀疏,KL 发散,甚至在训练中后期出现「坍塌」现象,模型陷入无效循环或生成退化答案。
EviNote-RAG 的引入,彻底改变了这一局面。通过在训练过程中加入 Supportive-Evidence Notes(SEN)与 Evidence Quality Reward(EQR),模型不仅学会了过滤无关信息,更获得了密集、稳定的奖励信号。这一结构化的「检索-笔记-回答」范式,使得训练曲线从动荡转向平滑,逐步提升性能的同时,极大增强了鲁棒性。
我们的分析揭示了三个关键发现:
Finding 1. 稳定性来自结构化指令,而非奖励本身。仅靠奖励设计无法避免模型漂移,唯有通过「先做笔记、再回答」的流程,把推理显式约束在证据之上,才能保证训练稳定增长。
Finding 2. 检索噪声过滤显著提升计算效率。SEN 在训练早期即丢弃无关证据,使输出更简洁聚焦,减少冗余推理,从而显著降低推理时延。
Finding 3. 行为监督不仅提升稳定性,更改善输出质量。EQR 的引入有效防止了「过短回答」与「循环生成」等退化模式,使模型在保持高效的同时,输出更忠实、更有逻辑支撑。
结果表明,EviNote-RAG 不只是性能提升,更是一种训练范式的革新:在噪声横行的检索环境中,训练终于能像一条清晰的轨道般稳定前行。
案例分析
一个直观的案例是回答「谁创作了《Knockin’ on Heaven’s Door》?」。
在传统 RAG 系统中,模型容易被检索文档中的噪声或误导性信息干扰。例如,某些文档强调 Guns N’ Roses 的翻唱版本,甚至用语暗示其「作者身份」。结果,模型很容易被这种表述带偏,最终输出错误答案「Guns N’ Roses」。
而在同样的场景下,EviNote-RAG 展现出了截然不同的表现。通过生成 Supportive-Evidence Notes(SEN),模型能够主动筛除无关或误导性的片段,仅保留和问题直接相关的核心证据。多份文档反复提及「Bob Dylan 为 1973 年电影《Pat Garrett and Billy the Kid》创作了这首歌」,这些被标注为关键信息,最终帮助模型稳定输出正确答案「Bob Dylan」。
这一案例生动展示了 EviNote-RAG 在低信噪比环境下的优势:即便存在大量混淆性信息,模型依然能够通过「先做笔记、再给答案」的流程,构建出基于真实证据的推理链,从而避免被误导。换句话说,EviNote-RAG 不仅是在「回答问题」,更是在「学会像人类一样做判断」。
消融实验与补充实验:
拆解模块贡献,验证方法稳健性
为了进一步理解 EviNote-RAG 的机制贡献,我们系统地进行了消融实验与补充实验。结果表明,我们的方法并非黑箱优化的「偶然胜利」,而是每一个设计环节都发挥了关键作用。
消融实验:SEN 与 EQR 缔造稳健推理在逐步剥离组件的实验中,基线模型(SEARCH-R1)在跨域和多跳任务中表现不稳定。引入 Supportive-Evidence Notes(SEN)后,模型性能显著提升:无关检索内容被过滤,答案相关性更强。在此基础上进一步加入 Evidence Quality Reward(EQR),模型在复杂推理链路中表现更加稳定,F1 和 EM 得到进一步提升。这一组合清晰地验证了我们的方法论逻辑:SEN 提供结构化约束,EQR 提供逻辑一致性监督,二者相辅相成,最终显著增强推理准确性。
补充实验:不同总结策略与奖励设计的比较我们进一步探索了不同的总结与监督方式:Naive Summary (NS)、Naive Evidence (NE)、Force Summary (FS) 等。结果显示,强行要求输出总结(FS)非但没有带来增益,反而由于奖励稀疏导致性能下降。
相比之下,SEN 在明确标注关键信息与不确定信息的同时,提供了更细粒度的监督信号,显著优于 NS/NE。实验还表明,单纯的奖励扰动(Stochastic Reward)难以带来稳定提升,而结合 EQR 的 SEN+EQR 则在稳定性与准确性上均达到最佳。这一系列对照实验凸显出一个核心结论:有效的监督不在于「要求总结」,而在于「如何组织与标记支持性证据」。
核心发现:
- SEN 是性能提升的基础:通过强制模型「做笔记」,显著降低噪声干扰。
- EQR 是质量提升的关键:通过逻辑蕴含约束,防止浅层匹配,强化因果一致性。
- 结构化监督胜于简单约束:相比强制总结或随机奖励,SEN+EQR 提供了稳定、密集且高质量的学习信号。
综上,消融与补充实验不仅验证了 EviNote-RAG 的有效性,更揭示了在 noisy RAG 环境中,结构化证据组织与逻辑监督是突破性能瓶颈的关键。
更多推荐
所有评论(0)