我自己的原文哦~                     https://blog.51cto.com/whaosoft/11580286

#SearchGPT

OpenAI大杀器SearchGPT横空出世,单挑谷歌千亿美元搜索帝国

OpenAI真来撼动谷歌的搜索帝国了?深夜悄悄上线的AI搜索引擎产品——SearchGPT,在同一问题的演示上,直接原地吊打谷歌和Perplexity。谷歌的AI Overview没做到的「重塑搜索引擎」,会让OpenAI达成吗?

OpenAI,忽然深夜放大招了——

今天半夜,OpenAI宣布推出名为Search GPT的AI搜索引擎,正式狙击搜索霸主谷歌。

据《金融时报》称,OpenAI已准备好攻进谷歌1750亿美元的搜索业务市场。

奥特曼在X上官宣此消息,大胆直言:「当今的搜索功能还有改进空间」!

没等来GPT-4o的语音功能,但ChatGPT的更新先来了。

尝试过SearchGPT的奥特曼,对于自己的全新搜索非常满意,表示跟老式搜索相比,自己更喜欢这种方式。

甚至「我适应得如此之快,这让我感到震惊!」

更暴击的是,SearchGPT的优质功能还将集成到ChatGPT中。

好消息是,根据奥特曼的说法,alpha测试将于下周开始开放给付费用户。

网友直言,SearchGPT对Perplexity、谷歌、必应都是迎头重击,让游戏开始吧!

SearchGPT对Perplexity、谷歌、必应是一个重大打击,直接与它们的搜索服务竞争。凭借其实时获取信息和与主要新闻机构的合作伙伴关系,SearchGPT准备颠覆搜索引擎市场

颠覆搜索,看来是真的

从官方放出的预览demo来看,似乎不仅仅是集成了实时网络信息,应该也包括类似于「多步推理」的功能。

问:我周末何时能在半月湾看到裸腮类动物?

对于包含如此具体时空细节的提问,谷歌是完全束手无策,给出的模糊答案看了就头疼。

上下滑动查看

SearchGPT则不跟你玩虚的,简单明快打直球,给出准确的时间点——

并且解释道,这类动物经常出现在潮间带和岸边岩石上,你应该在退潮时段去。

预测潮汐网站的参考链接,也贴心地附了出来。

更多的细节问题,也可以随口问它,比如那里天气如何?

这周末半月湾的天气预测,就会一一给出。

同样的问题,Perplexity倒是给出了一系列相关小tips,但对于核心问题,它并没有给出有力的答案,只是含糊地推荐「退潮期」。

这一轮对决,谷歌和Perplexity是妥妥输了。

实时响应,多轮对话,取代搜索引擎

SearchGPT和谷歌搜索的体验,为何差距如此之大?

OpenAI发言人Kayla Wood表示,目前SearchGPT的服务由GPT-4系列模型驱动, 采用类似ChatGPT的对话式界面和工作方式。

按照传统的搜索方式,用户在网络上检索时,往往需要多次搜索不同关键词,费时费力。

而SearchGPT颠覆了传统的搜索模式,只需像真人对话一样,表达自己的搜索诉求,即可获得实时响应,而且支持多轮对话。

以实时信息为基础,借助AI的理解推理和总结能力,找到想要的内容so easy。

跟传统搜索相比,SearchGPT的优化主要体现在两个方面:

其一,搜索结果更快速准确,充分发挥LLM的文本能力。

显然,对比基于关键词搜索的传统搜索引擎,AI搜索在理解问题和汇总信息方面有着显著的优势。

比如在搜索框内输入「八月份在北卡罗莱纳周Boone地区的音乐节」。

SearchGPT瞬间把几个相关的音乐节排列得清清楚楚,点击左侧边栏的链接按钮,还可以看到信息的来源,一键跳转买票。

而且,SearchGPT会为你提供指向相关来源的清晰链接。

2024巴黎奥运会什么时候举行?法国准备得怎么样了?它会援引路透社的报道

根据《连线》杂志的推测,SearchGPT很可能使用了检索增强生成(RAG)方法来减少回答中的幻觉,提高可信度并生成内容来源。

其二,不但能搜索结果,还能就一个细节和延申话题继续对话。

你一定有这样的体验,在搜索过程中会产生一些相关的新问题时,只能另起窗口接着搜,浏览器中开出十多个页面变成了工作日常。

传统搜索引擎就属于单次性搜索产品,检索完一个问题就结束。

而AI搜索附带有生成和对话的能力,每次查询都共享同一个上下文,让用户可以丝滑地继续话题。

最近用过ChatGPT的人,对这种体验一定不陌生。

比如它出了一些西红柿品种后,我们可以继续问:哪些是现在可以种的?

它会详细列出,在七月的明尼苏达州最适合种植的西红柿。

再比如,经过上一轮的搜索,你对Jones House比较感兴趣,就可以直接继续提问,「Jones House适合全家一起去看吗?」

SearchGPT也秒回,「是的,Jones House免费且向公众开放,适合所有年龄段,一家人可以带一块毯子在草坪上享受音乐盛宴。」

繁琐的音乐节做功课、看细节和买票等等全在SearchGPT一站式搞定,快速便捷又省心。

这种贴心高效的搜索体验,让人感慨OpenAI果然是最懂用户心的公司,把产品做到了极致。

谷歌危了?

而谷歌、Perplexity等搜索巨头们,接下来恐怕不好过了。

奥特曼所言的「搜索功能有改进的空间」,嘲讽意味拉满,内涵的对象自不必多说。

当然,OpenAI也同样瞄准了在AI搜索领域打天下的Perplexity AI。

OpenAI的目标是,最终将AI搜索功能重新整合到旗舰聊天机器人中。

此举是OpenAI挑战谷歌,做出的最新努力。

不言而喻,OpenAI在打造强大的AI聊天机器人的早期竞赛中一直处于领先地位。而在过去20年,谷歌一直在在线搜索领域占据主导地位。

截止6月,谷歌在全球搜索引擎市场中占到了91.05%的份额。微软必应只有3.7%的份额,而Pplexity的份额太低,无法衡量。

不甘落后的谷歌也在过去两年里,尝试将AI植入搜索引擎当中,并在去年带来了1750亿美元的收入,占总销售额一半以上。

与此同时,AI超进化为包括Perplexity在内的竞争对手,开辟了新道路。

这家成立仅两年的初创,专注于一件事「回答引擎」,现估值飙升至10亿美元。

不过,谷歌「一家独大」格局、AI初创单点布局,正在面临被OpenAI颠覆的危险,

OpenAI的帖子和博客发出后,谷歌母公司Alphabet的股价也变成了绿油油的一片。

事实上,谷歌在5月召开的I/O大会上就已经抢先OpenAI,发布了自己的AI搜索功能。

当天,CEO劈柴本人站台,自信满满地表示,要用Gemini的AI能力重塑搜索!

后来发生的事情我们都知道了——上线的AI Overview效果过于惨烈,「吃石头」、「披萨涂胶水」等各种翻车案例频发,被全网找乐子。

或许像SearchGPT这样先发布内测,再逐步开放,可以更好地把控产品的质量和口碑。

但也有网友担心,OpenAI又会再次放所有人的鸽子,SearchGPT的上线依旧遥遥无期。

Mistral和Meta: 发模型!

OpenAI:发博客!

与出版商和创作者合作

OpenAI表示,SeachGPT不仅仅是搜索,而且致力于打造更佳的用户与出版商和创作者互动体验。

一直以来,搜索引擎一直是出版商和创作者接触用户的主要方式。

现在,利用AI的对话界面,可以帮助用户更快找到理想的高质量内容,并提供多种互动机会。

搜索结果中会包含清晰的内容来源和链接,用户也可以在侧边栏中快速访问更多带有源链接的结果。

News Corp首席执行官Robert Thomson表示,奥特曼和其他OpenAI领导人都认为,任何人工智能驱动的搜索都必须依赖于「由可信来源提供的最高质量、最可靠的信息」。

OpenAI还在博客中特意声明,搜索结果与GenAI模型的训练是分开的。即使不向OpenAI提供训练数据,相关内容也会出现在SearchGPT中。

最近一段时间,OpenAI与多家顶级出版商建立了合作,包括《大西洋月刊》、美联社和Business Insider的母公司Axel Springer,似乎也包括下辖《华尔街日报》、《泰晤士报》、《太阳报》的媒体巨头News Corp。

OpenAI代表向这些出版商展示了搜索功能的原型,并表示,他们可以自行选择内容来源在SerchGPT中的呈现方式。

OpenAI这种谨慎的合作态度似乎是吸取了前段时间的教训,有意规避风险。

上个月,Perplexity在搜索结果中使用了《福布斯》的一篇报道,但没有准确注明来源,直到页面底部才提及。

结果,Perplexity的CEO直接收到了《福布斯》的信函,声称要对这种侵权行为采取法律行动。

由于最近普遍的流量下降趋势,以及AI对内容行业的冲击,出版商对AI重塑新闻的方式越来越感到不安。

他们普遍担心,OpenAI或谷歌的AI搜索工具将根据原始新闻内容提供完整的答案,让用户无需阅读原始文章,进而造成在线流量和广告收入的锐减。

许多出版商都认为,向科技巨头们出售其知识产权的访问权是有价值的,因为他们需要大量数据和内容来完善其人工智能系统并创建SearchGPT等新产品。

或许,从OpenAI与媒体的合作中,我们可以推知它如此急于开展搜索业务的原因。

根据The Information本周的报道,OpenAI正在陷入财务风暴,今年的亏损可能高达50亿美元。

恰好,搜索是一项极其吸金的业务。除了可以与媒体、出版商合作,还有机会通过广告盈利。

财报显示,谷歌搜索业务仅今年第一季度的收入就达到了460亿美元。

有如此丰厚的利润前景,或许奥特曼不会舍得让SearchGPT像Sora和《Her》那样一直鸽下去。

参考资料:

​https://openai.com/index/searchgpt-prototype/​

​https://www.ft.com/content/16c56117-a4f4-45d6-8c7b-3ef80d17d254​

.....

#SGLang

贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM

用来运行 Llama 3 405B 优势明显。

最近,Meta 开源了最新的 405B 模型(Llama 3.1 405B),把开源模型的性能拉到了新高度。由于模型参数量很大,很多开发者都关心一个问题:怎么提高模型的推理速度?

时隔才两天,LMSYS Org 团队就出手了,推出了全新的 SGLang Runtime v0.2。这是一个用于 LLM 和 VLM 的通用服务引擎。在运行 Llama 3.1 405B 时,它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM。

在某些情况下(运行 Llama 系列模型),它的吞吐量甚至能达到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。

LMSYS Org 团队是一个由加州大学伯克利分校、加州大学圣地亚哥分校以及卡内基梅隆大学的学生与教职员工共同组建的公开性质的研究团体。他们开发的大模型评测平台 ——Chatbot Arena 已经成为检验大模型能力的重要平台,也被认为是一种相对公平的评测方式。

SGLang 是该团队开发的一个用于大型语言模型和视觉语言模型的快速服务框架,于今年 1 月份正式推出,在 GitHub 上已经收获了超过 3k 的 star 量。

这次的更新效果惊艳,知名 AI 研究者、Lepton AI 联合创始人兼 CEO 贾扬清评价说「我一直被我的博士母校加州大学伯克利分校惊艳,因为它不断交付最先进的人工智能和系统协同设计成果。去年我们看到了 SGLang 的使用,现在它变得更好了。迫不及待地想在产品中部署并尝试新的 SGLang!」

为什么 LMSYS Org 要开发并迭代 SGLang 呢?他们在博客中提到,「我们已经运行 Chatbot Arena 平台一年多,为数百万用户提供服务。我们深知高效服务对人工智能产品和研究的重要性。通过运营经验和深入研究,我们不断增强底层服务系统,从高级多模型服务框架 FastChat 到高效服务引擎 SGLang Runtime (SRT)。」

「这篇文章的重点是 SGLang Runtime,它是一个用于 LLM 和 VLM 的通用服务引擎。虽然 TensorRT-LLM、vLLM、MLC-LLM 和 Hugging Face TGI 等现有选项各有优点,但我们发现它们有时难以使用、难以定制或性能不佳。这促使我们开发了 SGLang v0.2,旨在创建一个不仅用户友好、易于修改,而且性能一流的服务引擎。」

与 TensorRT-LLM 和 vLLM 相比,SGLang Runtime 在处理从 Llama-8B 到 Llama-405B 的模型时,以及在 A100 和 H100 GPU 上使用 FP8 和 FP16 时,在在线和离线场景下都能持续提供卓越或有竞争力的性能。SGLang 的性能始终优于 vLLM,在 Llama-70B 上的吞吐量最高是前者的 3.8 倍。它还经常与 TensorRT-LLM 不相上下,甚至超过 TensorRT-LLM,在 Llama-405B 上的吞吐量最高是前者的 2.1 倍。更重要的是,SGLang 是完全开源的,由纯 Python 编写,核心调度器只用了不到 4K 行代码就实现了。

SGLang 是一个开源项目,采用 Apache 2.0 许可授权。它已被 LMSYS Chatbot Arena 用于支持部分模型、Databricks、几家初创公司和研究机构,产生了数万亿 token,实现了更快的迭代。

以下是几个框架的对比实验设置和结果。

基准设置

研究者对离线和在线用例进行基准测试:

离线:他们一次发送 2K 到 3K 个请求,测量输出吞吐量(token / 秒),即输出 token 数除以总持续时间。他们测试的合成数据集来自 ShareGPT 数据集。例如,I-512-O-1024 表示平均输入 512 个 token、平均输出 1024 个 token 的数据集。五个测试数据集分别为:

  • 数据集 1:I-243-O-770;
  • 数据集 2:I-295-O-770;
  • 数据集 3:I-243-O-386;
  • 数据集 4:I-295-O-386;
  • 数据集 5:I-221-O-201。

在线:他们以每秒 1 到 16 个请求 (RPS) 的速率发送请求,测量端到端延迟的中位数。他们使用合成数据集 I-292-O-579。

他们使用 vLLM 0.5.2(带默认参数)和 TensorRT-LLM(带推荐参数和调整后的批大小)。所有引擎都关闭了前缀缓存。目的是在没有任何附加功能(如推测解码或缓存)的情况下,对基本性能进行基准测试。他们使用与 OpenAI 兼容的 API 对 SGLang 和 vLLM 进行基准测试,并使用 Triton 接口对 TensorRT-LLM 进行基准测试。

Llama-8B 在一个 A100 上运行(bf16)

研究者从小型模型 Llama-8B 开始测试。下图显示了每个引擎在五个不同数据集的离线设置下所能达到的最大输出吞吐量。TensorRT-LLM 和 SGLang 都能达到每秒约 4000 个 token 的吞吐量,而 vLLM 则稍逊一筹。

图片

下面的在线基准图显示了与离线情况类似的趋势。TensorRT-LLM 和 SGLang 的性能相当,可以保持 RPS > 10,而 vLLM 的延迟在请求率较高时显著增加。

图片

Llama-70B 在 8 个 A100 上运行(bf16)

至于在 8 个 GPU 上进行张量并行的较大型 Llama-70B 模型,趋势与 8B 相似。在下面的离线基准测试中,TensorRT-LLM 和 SGLang 都能达到很高的吞吐量。

图片

在下图的在线结果中,TensorRT-LLM 凭借高效的内核实现和运行时间,显示出较低的延迟。

图片

Llama-70B 在 8 个 H100 上运行(fp8)

现在来测试 FP8 性能。vLLM 和 SGLang 都使用了 CUTLASS 的 FP8 内核。在离线设置中,SGLang 的批处理调度器非常高效,可以随着批处理规模的增大而继续扩展吞吐量,在这种情况下实现了最高吞吐量。其他系统则由于 OOM、缺少大量手动调整或存在其他开销而无法扩展吞吐量或批大小。在线情况下也是如此,SGLang 和 TensorRT 的中位延迟相似。

图片

图片

Llama-405B 在 8 个 H100 上运行(fp8)

最后,研究者在最大的 405B 模型上对各种方法的性能进行了基准测试。由于模型较大,大部分时间都花在了 GPU 内核上。不同框架之间的差距缩小了。TensorRT-LLM 性能不佳的原因可能是 405B 模型刚刚问世,而图中使用的版本尚未集成一些最新优化。在在线和离线情况下,SGLang 的性能都是最好的。

图片

图片

SGLang 概览

SGLang 是大型语言模型和视觉语言模型的服务框架。它基于并增强了多个开源 LLM 服务引擎(包括 LightLLM、vLLM 和 Guidance)的许多优秀设计。它利用了来自 FlashInfer 的高性能注意力 CUDA 内核,并集成了受 gpt-fast 启发的 torch.compile。

此外,研究者还引入了一些创新技术,如用于自动 KV 缓存重用的 RadixAttention 和用于快速约束解码的压缩状态机。SGLang 以其完全用 Python 实现的高效批处理调度器而闻名。为了进行公平比较,本博客测试了这些服务引擎在关闭特定场景或工作负载优化(如前缀缓存和推测解码)后的基本性能。SGLang 的提速是通过适当的工程设计实现的。SGLang 基于 Python 的高效批处理调度器具有良好的扩展性,通常可与使用 C++ 构建的闭源实现相媲美,甚至更胜一筹。

表 1 比较了 SGLang、TensorRT-LLM 和 vLLM 的各个方面。在性能方面,SGLang 和 TensorRT-LLM 都非常出色。在可用性和可定制性方面,SGLang 的轻量级和模块化内核使其易于定制,而 TensorRT-LLM 复杂的 C++ 技术栈和设置说明使其更难使用和修改。SGLang 的源代码完全开源,而 TensorRT-LLM 仅部分开源。相比之下,vLLM 的 CPU 调度开销较高。

图片

研究者还表示,未来他们还将开发长上下文和 MoE 优化等新功能。

使用方法

你可以按照以下步骤轻松服务 Llama 模型:  

1、使用 pip、源代码或 Docker 安装 SGLang:https://github.com/sgl-project/sglang/tree/main?tab=readme-ov-file#install

2、启动服务器:

# Llama 8B
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct




# Llama 405B
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-405B-Instruct-FP8 --tp 8

3、使用 OpenAI 兼容的 API 发送请求:

curl http://localhost:30000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "default",
    "prompt": "Say this is a test",
    "max_tokens": 7,
    "temperature": 0
  }'

4、运行基准:  

python3 -m sglang.bench_serving --backend sglang --num-prompts 1000

附录:详细的基准设置

重现基准的说明位于 sglang/benchmark/blog_v0_2。

对于所有基准测试,研究者都设置了 ignore_eos 或 min_length/end_id 以确保每个引擎输出相同数量的 token。他们曾尝试使用 vLLM 0.5.3.post1,但它在高负载情况下经常崩溃,与部分基准测试中的 vLLM 0.5.2 相比,vLLM 0.5.3.post1 性能似乎差不多甚至更差。因此,他们报告的是 vLLM 0.5.2 的结果。虽然他们知道不同的服务器配置会对服务性能产生重大影响,但他们主要使用每个引擎的默认参数来模拟普通用户的情况。

对于 8B 和 70B 模型,他们使用 meta-llama/Meta-Llama-3-8B-Instruct 和 meta-llama/Meta-Llama-3-70B-Instruct bf16 检查点,以及 neuralmagic/Meta-Llama-3-70B-Instruct-FP8 fp8 检查点。对于 405B 模型,他们在所有基准测试中都使用了虚拟权重。由于 TensorRT-LLM 最新图像 r24.06 不支持官方 meta-llama/Meta-Llama-3.1-405B-FP8 检查点中的 fbgemm_fp8 量化,他们在所有框架中都使用了每层 fp8 量化,并对除 lm_head 以外的所有层进行了量化。他们相信这样可以对所有引擎进行公平的比较。A100 和 H100 GPU 为 80GB SXM 版本。

参考链接:https://lmsys.org/blog/2024-07-25-sglang-llama3/

....

#KAN or MLP

反转了?在一场新较量中,号称替代MLP的KAN只赢一局

KAN 在符号表示中领先,但 MLP 仍是多面手。

多层感知器 (Multi-Layer Perceptrons,MLP) ,也被称为全连接前馈神经网络,是当今深度学习模型的基本组成部分。MLP 的重要性无论怎样强调都不为过,因为它是机器学习中用于逼近非线性函数的默认方法。

然而,MLP 也存在某些局限性,例如难以解释学习到的表示,以及难以灵活地扩展网络规模。

KAN(Kolmogorov–Arnold Networks)的出现,为传统 MLP 提供了一种创新的替代方案。该方法在准确性和可解释性方面优于 MLP,而且,它能以非常少的参数量胜过以更大参数量运行的 MLP。

那么,问题来了,KAN 、MLP 到底该选哪一种?有人支持 MLP,因为 KAN 只是一个普通的 MLP,根本替代不了,但也有人则认为 KAN 更胜一筹,而当前对两者的比较也是局限在不同参数或 FLOP 下进行的,实验结果并不公平。

为了探究 KAN 的潜力,有必要在公平的设置下全面比较 KAN 和 MLP 了。

为此,来自新加坡国立大学的研究者在控制了 KAN 和 MLP 的参数或 FLOP 的情况下,在不同领域的任务中对它们进行训练和评估,包括符号公式表示、机器学习、计算机视觉、NLP 和音频处理。在这些公平的设置下,他们发现 KAN 仅在符号公式表示任务中优于 MLP,而 MLP 通常在其他任务中优于 KAN。

  • 论文地址:https://arxiv.org/pdf/2407.16674
  • 项目链接:https://github.com/yu-rp/KANbeFair
  • 论文标题:KAN or MLP: A Fairer Comparison

作者进一步发现,KAN 在符号公式表示方面的优势源于其使用的 B - 样条激活函数。最初,MLP 的整体性能落后于 KAN,但在用 B - 样条代替 MLP 的激活函数后,其性能达到甚至超过了 KAN。但是,B - 样条无法进一步提高 MLP 在其他任务(如计算机视觉)上的性能。

作者还发现,KAN 在连续学习任务中的表现实际上并不比 MLP 好。最初的 KAN 论文使用一系列一维函数比较了 KAN 和 MLP 在连续学习任务中的表现,其中每个后续函数都是前一个函数沿数轴的平移。而本文比较了 KAN 和 MLP 在更标准的类递增持续学习设置中的表现。在固定的训练迭代条件下,他们发现 KAN 的遗忘问题比 MLP 更严重。

图片

KAN、MLP 简单介绍

KAN 有两个分支,第一个分支是 B 样条分支,另一个分支是 shortcut 分支,即非线性激活与线性变换连接在一起。在官方实现中,shortcut 分支是一个 SiLU 函数,后面跟着一个线性变换。令 x 表示一个样本的特征向量。那么,KAN 样条分支的前向方程可以写成:

图片

在原始 KAN 架构中,样条函数被选择为 B 样条函数。每个 B 样条函数的参数与其他网络参数一起学习。

相应的,单层 MLP 的前向方程可以表示为:

图片

该公式与 KAN 中的 B 样条分支公式具有相同的形式,只是在非线性函数中有所不同。因此,抛开原论文对 KAN 结构的解读,KAN 也可以看作是一种全连接层。

因而,KAN 和普通 MLP 的区别主要有两点:

  1. 激活函数不同。通常 MLP 中的激活函数包括 ReLU、GELU 等,没有可学习的参数,对所有输入元素都是统一的,而在 KAN 中,激活函数是样条函数,有可学习的参数,并且对于每个输入元素都是不一样的。
  2. 线性和非线性运算的顺序。一般来说,研究者会把 MLP 概念化为先进行线性变换,再进行非线性变换,而 KAN 其实是先进行非线性变换,再进行线性变换。但在某种程度上,将 MLP 中的全连接层描述为先非线性,后线性也是可行的。

通过比较 KAN 和 MLP,该研究认为两者之间的差异主要是激活函数。因而,他们假设激活函数的差异使得 KAN 和 MLP 适用于不同的任务,从而导致两个模型在功能上存在差异。为了验证这一假设,研究者比较了 KAN 和 MLP 在不同任务上的表现,并描述了每个模型适合的任务。为了确保公平比较,该研究首先推导出了计算 KAN 和 MLP 参数数量和 FLOP 的公式。实验过程控制相同数量的参数或 FLOP 来比较 KAN 和 MLP 的性能。

KAN 和 MLP 的参数数量及FLOP 

控制参数数量

KAN 中可学习的参数包括 B 样条控制点、shortcut 权重、B 样条权重和偏置项。总的可学习参数数量为:

图片

其中, d_in 和 d_out 表示神经网络层的输入和输出维度,K 表示样条的阶数,它与官方 nn.Module KANLayer 的参数 k 相对应,它是样条函数中多项式基础的阶数。G 表示样条间隔数,它对应于官方 nn.Module KANLayer 的 num 参数。它是填充前 B 样条曲线的间隔数。在填充之前,它等于控制点的数量 - 1。在填充后,应该有 (K +G) 个有效控制点。

相应的,一个 MLP 层的可学习参数是:

图片

KAN 和 MLP 的 FLOP

在作者的评估中,任何算术操作的 FLOP 被考虑为 1,而布尔操作的 FLOP 被考虑为 0。De Boor-Cox 算法中的 0 阶操作可以转换为一系列布尔操作,这些操作不需要进行浮点运算。因此,从理论上讲,其 FLOP 为 0。这与官方 KAN 实现不同,在官方实现中,它将布尔数据转换回浮点数据来进行操作。

在作者的评估中,FLOP 是针对一个样本计算的。官方 KAN 代码中使用 De Boor-Cox 迭代公式实现的 B 样条 FLOP 为:

图片

连同 shortcut 路径的 FLOP 以及合并两个分支的 FLOP,一个 KAN 层的总 FLOP 是:

图片

相应的,一个 MLP 层的 FLOP 为:

图片

具有相同输入维度和输出维度的 KAN 层与 MLP 层之间的 FLOP 差异可以表示为:

图片

如果 MLP 也首先进行非线性操作,那么首项将为零。

 实验

作者的目标是,在参数数量或 FLOP 相等的前提下,对比 KAN 和 MLP 的性能差异。该实验涵盖多个领域,包括机器学习、计算机视觉、自然语言处理、音频处理以及符号公式表示。所有实验都采用了 Adam 优化器,这些实验全部在一块 RTX3090 GPU 上进行。

性能比较

机器学习。作者在 8 个机器学习数据集上进行了实验,使用了具有一到两个隐藏层的 KAN 和 MLP,根据各个数据集的特点,他们调整了神经网络的输入和输出维度。

对于 MLP,隐藏层宽度设置为 32、64、128、256、512 或 1024,并采用 GELU 或 ReLU 作为激活函数,同时在 MLP 中使用了归一化层。对于 KAN,隐藏层宽度则为 2、4、8 或 16,B 样条网格数为 3、5、10 或 20,B 样条的度数(degree)为 2、3 或 5。

由于原始 KAN 架构不包括归一化层,为了平衡 MLP 中归一化层可能带来的优势,作者扩大了 KAN 样条函数的取值范围。所有实验都进行了 20 轮训练,实验记录了训练过程中在测试集上取得的最佳准确率,如图 2 和图 3 所示。

在机器学习数据集上,MLP 通常保持优势。在他们对八个数据集的实验中,MLP 在其中的六个上表现优于 KAN。然而,他们也观察到在一个数据集上,MLP 和 KAN 的性能几乎相当,而在另一个数据集上,KAN 表现则优于 MLP。

总体而言,MLP 在机器学习数据集上仍然具有普遍优势。

图片

图片

计算机视觉。作者对 8 个计算机视觉数据集进行了实验。他们使用了具有一到两个隐藏层的 KAN 和 MLP,根据数据集的不同,调整了神经网络的输入和输出维度。

在计算机视觉数据集中,KAN 的样条函数引入的处理偏差并没有起到效果,其性能始终不如具有相同参数数量或 FLOP 的 MLP。

图片

图片

音频和自然语言处理。作者在 2 个音频分类和 2 个文本分类数据集上进行了实验。他们使用了一到两个隐藏层的 KAN 和 MLP,并根据数据集的特性,调整了神经网络的输入和输出维度。

在两个音频数据集上,MLP 的表现优于 KAN。

在文本分类任务中,MLP 在 AG 新闻数据集上保持了优势。然而,在 CoLA 数据集上,MLP 和 KAN 之间的性能没有显著差异。当控制参数数量相同时,KAN 在 CoLA 数据集上似乎有优势。然而,由于 KAN 的样条函数需要较高的 FLOP,这一优势在控制 FLOP 的实验中并未持续显现。当控制 FLOP 时,MLP 似乎更胜一筹。因此,在 CoLA 数据集上,并没有一个明确的答案来说明哪种模型更好。

总体而言,MLP 在音频和文本任务中仍然是更好的选择。

图片

图片

符号公式表示。作者在 8 个符号公式表示任务中比较了 KAN 和 MLP 的差异。他们使用了一到四个隐藏层的 KAN 和 MLP,根据数据集调整了神经网络的输入和输出维度。

在控制参数数量的情况下,KAN 在 8 个数据集中的 7 个上表现优于 MLP。在控制 FLOP 时,由于样条函数引入了额外的计算复杂性,KAN 的性能大致与 MLP 相当,在两个数据集上优于 MLP,在另一个数据集上表现不如 MLP。

总体而言,在符号公式表示任务中,KAN 的表现优于 MLP。

图片

图片

....

#为什么AI数不清Strawberry里有几个 r?

Karpathy:我用表情包给你解释一下

让模型知道自己擅长什么、不擅长什么是一个很重要的问题。

还记得这些天大模型被揪出来的低级错误吗?

不知道 9.11 和 9.9 哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。

图片

嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么?

大家普遍认为,是 Token 化(Tokenization)的锅。

在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 token 指的未必是词,也可以是标点符号、数字或者某个单词的一部分。比如,在 OpenAI 提供的一个工具中,我们可以看到,Strawberry 这个单词就被分为了 Str-aw-berry 三个 token。在这种情况下,你让 AI 大模型数单词里有几个 r,属实是为难它。

图片

除了草莓 (Strawberry) 之外,还有一个很好的例子就是「Schoolbooks」这个词,AI 模型会把它分为 school 和 books 两个 token。

图片

图片

这个问题也吸引了刚刚投身 AI + 教育行业的 Karpathy 的注意。为了让大家直观地看到大模型眼里的文字世界,他特地写了一个小程序,用表情符号(emoji)来表示 token。

图片

按照小程序被设计的表示方法,「How many letters 'r' in the word'strawberry'?」在 LLM 看来是这样的:

图片

一段文本在 LLM 看来会是这样:

图片

但这种解释也引起了另一种疑问:如果你让大模型把 Strawberry 这个词的每个字母都列出来,然后删掉 r 以外的字母,大模型就能数对了,那大模型为什么自己不这么做呢?它好像不太会利用自己的能力。

图片

图片

对此,Karpathy 给出的回复是「因为没有人教它这么做」。

图片

其实,如果你在 Prompt 里加上「think step by step」等思维链相关「咒语」,大模型是可以分步骤解决问题的,而且很有可能数对「r」的数量。那它之前不假思索就给出答案,是不是因为过度自信?   

图片

对此,有人猜测说,大模型公司给 LLM 的设定可能就是让它在一个问题上花费尽可能少的时间,因此,除非你明确要求,不然它不会主动去深入思考。

图片

对于这种说法,我们也测试了一下。结果发现,如果明确要求深入思考,模型确实立马就会数了:   

图片

这就类似于它有两套系统:快速、依靠直觉的系统 1 和较慢、较具计划性且更仰赖逻辑的系统 2,平时默认使用系统 1。

图片

当然,这些只是猜测。

综合最近的新闻来看,我们会发现一个有意思的现象:一方面,大模型都能在人类奥数中拿银牌了;而另一方面,它们又在数数、比大小方面集体翻车。类似的例子还有不会玩几岁小孩都会玩的井字棋,不会判断两个圆是否重叠等。

图片

图片

Karpathy 给这种现象取了个名字 ——Jagged Intelligence(Jagged 的意思是参差不齐的)。这种参差不齐的智能表现和人类是不一样的,人类的知识体系和解决问题的能力在成长过程中是高度相关的,并且是同步线性发展的,而不是在某些领域突然大幅度提升,而在其他领域却停滞不前。

Karpathy 认为,这一问题的核心在于目前的大模型缺乏「认知自我知识(cognitive self-knowledge)」( 模型自身对其知识和能力的自我认知 )。如果模型具备这种能力,它可能会在面对「数字母」这样的问题时回答说,「我不太擅长数字母,让我使用代码解释器来解决这个问题」。

图片

这一问题的解决方案可能包括但不限于扩大规模,可能需要在整个技术栈的各个方面都做一些工作,比如在后训练阶段采用更复杂的方法。

对此,Karpathy 推荐阅读 Llama 3 论文的 4.3.6 章节。在此章节中,Meta 的研究者提出了一些方法来让模型「只回答它知道的问题」。

图片

该章节写到:

我们遵循的原则是,后训练应使模型「知道它知道什么」,而不是增加知识。我们的主要方法是生成数据,使模型生成与预训练数据中的事实数据子集保持一致。为此,我们开发了一种知识探测技术,利用 Llama 3 的 in-context 能力。数据生成过程包括以下步骤:

1、从预训练数据中提取数据片段。

2、通过提示 Llama 3 生成一个关于这些片段(上下文)的事实问题。

3、采样 Llama 3 关于该问题的回答。

4、以原始上下文为参照,以 Llama 3 为裁判,评估生成的回答的正确性。 

5、以 Llama 3 为裁判,评估生成回答的信息量。

6、对于 Llama 3 模型在多个生成过程中提供的信息虽多但内容不正确的回答,使用 Llama 3 生成拒绝回答的内容。 

我们使用知识探测生成的数据来鼓励模型只回答它知道的问题,而拒绝回答它不确定的问题。此外,预训练数据并不总是与事实一致或正确。因此,我们还收集了一组有限的标注事实性数据,这些数据涉及与事实相矛盾或不正确的陈述。

最后,Karpathy 表示,这种参差不齐的智能问题值得注意,尤其是在生产环境中。我们应该致力于让模型只完成他们擅长的任务,不擅长的任务由人类及时接手。

当然,Meta 的做法只是一种参考。如果你有更好的解决方案,欢迎在评论区留言。

参考链接:https://www.reddit.com/r/ChatGPT/comments/1e6do2a/why_the_strawberry_problem_is_hard_for_llms/

​https://x.com/karpathy/status/1816531576228053133​

....

#牛津剑桥的9次投毒导致模型崩溃

牛津剑桥「投毒」AI失败9次登Nature封面,引爆学术圈激辩!AI训AI能否打破崩溃魔咒?

牛津剑桥的9次投毒导致模型崩溃的论文,已经遭到了诸多吐槽:这也能上Nature?学术圈则对此进行了进一步讨论,大家的观点殊途同归:合成数据被很多人视为灵丹妙药,但天下没有免费的午餐。

AI时代,数据就是新的石油。全球人类数据逐渐枯竭的时代,合成数据是我们的未来吗?

最近Nature封面一篇论文引起的风波,让我们明白:重要的并不是「合成数据」,而是「正确使用合成数据」。

本周四,牛津、剑桥、帝国理工、多伦多大学等机构的一篇论文登上了Nature封面。

他们提出了AI的「近亲繁殖」问题,即如果在训练中不加区别地只用AI产生的内容,就会发生模型崩溃。不过,让人没想到的是,论文一经刊出便引发了AI社区的大量讨论。

一些人认为,问题的核心不在「合成数据」上,而是在「数据质量」上。

即使全部用的是人工数据,如果质量太差,那结果一样也是「垃圾进垃圾出」。

图片

甚至,有人觉得研究者故意采用了与实际操作不匹配的方法,实际上是在「哗众取宠」。

对此,马毅教授表示,如今我们已经走进了缺少科学思想和方法的时代——

许多研究,不过都是重新发现一些科学常识。

如何避免模型崩溃?

那么问题来了,在使用AI合成数据时,如何才能避免发生模型崩溃呢?

混合数据才是未来

对于这篇Nature封面的文章,Scale AI的CEO Alexandr Wang深表赞同。

他表示,利用纯合成数据来训练模型,是不会带来信息增益的。

通常,当评估指标因「自蒸馏」(self-distillation)而上升时,大概率是因为一些更隐蔽的权衡:

  • 合成数据可以在短期内提升评估结果,但之后你会为模型崩溃付出代价
  • 你在训练或微调模型过程中积累了隐形的债务,而这些债务将很难偿还

具体而言,在连续几代的合成训练中,错误主要来自三个方面:

  • 统计近似误差(statistical approximation error)
  • 功能表达误差(functional expressivity error)
  • 功能近似误差(functional approximation error)

也就是,每次你用上一个模型生成的数据来训练新模型时,都会丢失一些信息和精度,导致模型变得越来越空洞,最终无法正常工作。

虽然这些实验是在小规模模型(100M参数)上进行的,但观察到的基本效应也会随着时间的推移在更大规模的模型上出现。

例如,今天的大多数模型无法生成像Slate Star Codex风格的博客文章,这也是由于模型崩溃的原因。随着我们连续训练模型,它们逐渐失去了在广泛分布上进行预测的能力。

在Wang看来,混合数据(Hybrid Data)才是未来的发展方向,它能够避免所有与模型崩溃相关的棘手问题。

也就是说,在合成数据的过程中,必须通过某种新的信息来源来生成:

(1)使用真实世界数据作为种子

(2)人类专家参与

(3)形式逻辑引擎

相比之下,那些不慎使用了无信息增益的合成数据来训练模型的开发者,终将会发现他们的模型随着时间的推移变得越来越奇怪和愚蠢。​

强化学习is all you need

来自Meta、纽约大学和北京大学的研究人员,提出了一种通过人类或较弱模型的「排序-修剪反馈」方法,可以恢复甚至超越模型原来的性能。

对于这项研究,LeCun也进行了转发,表示支持。

众所周知,不管是对于人类还是机器来说,区分一个示例的好坏,要远比从头生成一个高质量的样本容易得多。

基于此,作者提出了一种全新的方法——通过合成数据反馈来防止模型崩溃。

论文地址:https://arxiv.org/abs/2406.07515

为了研究这个问题,作者首先在理论环境中提供了分析结果。

在这里,作者提出了高维极限下的高斯混合模型和线性模型作为分类器,并让一个验证者(例如人类或oracle)来选择或修剪生成的数据。

结果显示,当合成数据点的数量趋于无限时,基于选定数据训练的模型可以达到与原始数据训练相媲美的最佳结果。

在合成数据上的模拟显示,与使用原始标注相比,oracle监督始终能产生接近最佳的结果。

此外,由于通过人类监督来分辨高质量数据比直接人类标注更简单且成本更低,这为人类参与监督的有效性提供了有力的证据。

一个具有线性生成器和线性剪枝器的高斯混合模型:其中的剪枝器通过选择强化合成数据来提高性能

接下来,作者进行了两个大规模的实验:

1. 在算术任务(矩阵特征值预测)上训练Transformer,并使用与真实值的距离来修剪大量合成数据

2. 使用大语言模型(Llama 2)和有限的合成数据进行新闻摘要

结果显示,在这两种情况下,仅依赖生成数据会导致性能下降,即使数据量增加,也会出现模型崩溃。

并且,仅根据困惑度从生成池中选择最佳解决方案并不会提升性能,即模型本身缺乏基于困惑度选择最佳预测的能力。

相反,在oracle监督下,可以获得一个基于反馈增强的合成数据集,其性能随着数据量的增加而超过了原始数据集。

通过人类和模型的强化,可以提升性能并防止模型崩溃;而在没有强化的情况下则会出现性能下降

因此,在用合成数据训练新模型时,不仅要关注生成器的质量,还需要一个高质量的验证者来选择数据。

一句话总结就是:reinforcement is all you need!​

真实数据+合成数据

对于读者们对于这篇Nature封面论文的吐槽,斯坦福大学的博士生Rylan Schaeffer表示理解。

他指出,模型崩溃通常出现在研究人员故意采用与实际操作不匹配的方法时。

数据积累可以崩溃,也可以不崩溃,这完全取决于具体的操作细节。

你们故意把它弄崩溃,它当然就会崩溃了。😂

在这篇斯坦福、马里兰和MIT等机构合著的论文中,Schaeffer研究了积累数据对模型崩溃有何影响。

经过实验后他们确认,用每一代的合成数据替换原始的真实数据,确实会导致模型崩溃。

但是,如果将连续几代的合成数据与原始的真实数据一起积累,可以避免模型崩溃。

论文地址:https://arxiv.org/abs/2404.01413

在实践中,后代LLM会随着时间推移,在不断增加的数据中进行训练,比如Llama 1需要1.4万亿个token,Llama 2需要2万亿个token,Llama 3需要15万亿个token。

从某种意义上说,这种数据积累设定是极其悲观的——

在这个假设的未来中,合成数据被不受控制地倾倒在互联网上,用于训练模型的下一次迭代。

如图右侧所示,积累数据可以避免模型崩溃

研究者使用了因果Transformer、扩散模型和自变分编码器三种不同的实验设置,分别在真实文本、分子构象和图像数据集上进行了训练。

他们发现,替换数据会导致所有模型和所有数据集的模型崩溃,而积累数据可以避免模型崩溃。

基于Tranformer的因果语言建模

首先,他们在文本数据上训练了因果Transformer。

具体来说,就是在TinyS-tories上预训练了单个epoch的9M参数GPT-2和 12M、42M和125M参数的Llama 2语言模型。

前者是一个470M token的,GPT-3.5/4生成的幼儿园阅读水平的短篇故事数据集。

对于每次模型拟合迭代n≥2,研究者会从上一次迭代的语言型中采样一个与TinvStories大小相同的新数据集,然后用新生成的数据集替换或连接以前的数据集。

在每次模型拟合迭代中,他们会来自上一次迭代的替换或串联数据集来预训练一个新的初始化模型。

结果显示,对于所有架构、参数计数和采样温度,随着模型拟合迭代次数的增加,替换数据会导致测试交叉熵的增加(图2左)。

同时他们还发现,对于所有架构、参数计数和采样温度,随着模型拟合迭代次数的增加,积累的数据会导致测试交叉熵等于或更低(图2右)。

图3是重复替换数据(顶部)和积累数据(底部)时各个模型拟合迭代的学习曲线。

结果显示,数据积累避免了语言建模中的模型崩溃。

125M的Llama2和9M的GPT-2,在替换数据(R)时都表现出了质量下降,但在积累数据(A)时,却保持了高质量的文本生成。

分子构象数据的扩散模型

接下来,他们在分子构象数据上训练扩散模型序列。

具体来说,研究者在GEOMDrugs数据集上训练了GeoDiff,这是一种用于分子构象生成的几何扩散模型。

他们将GEOM-Drugs数据集的训练部分下采样到40,000个分子构象,将其用作初始训练集,并为每个预测执行50个扩散步骤。

结果经过8次模型拟合迭代,研究者发现:替换数据时测试损失增加,这与我们的语言模型实验相匹配,并且累积数据时测试损失保持相对恒定(图4)。

与语言模型不同,他们发现,当替换数据时,在合成数据训练的第一次模型拟合迭代中,性能会显著恶化,并且在后续迭代中不会进一步大幅下降。

图像数据的自变分编码器

实验最后,研究者在CelebA上训练了自变分编码器(VAE)序列,该数据集包含了20万张人脸图像,分为训练集和测试集。

这种选择,在具有许多样本、彩色图像和分辨率的现实数据集,和在累积数据上训练模型多次迭代的计算可行性之间,达到了平衡。

结果他们发现,在每次迭代中替换数据再次表现出模型崩溃——

测试误差会随着每次额外的迭代而迅速上升,并且每次迭代产生的质量较低且生成的面孔多样性较少,直到所有模型生成都代表单一模式。

相比之下,在每次迭代中,积累数据会显著减缓模型崩溃——

随着每次额外的迭代,测试误差的增加速度显著减慢。

虽然与图6的中图和右图相比,世代的多样性确实下降了,它仍然代表数据集中变化的主要轴,例如性别,但模型似乎不再沿着数据流形的更短轴生成其他细节,例如眼镜和配件。

还有一个有趣的现象是,与语言建模不同,积累数据的测试误差确实会随着迭代次数的增加而增加(尽管比替换数据慢得多)。

为什么会存在这种差异?这个研究方向就留给未来了。

参考资料:

https://x.com/alexandr_wang/status/1816491442069782925 https://x.com/RylanSchaeffer/status/1816535790534701304

​https://arxiv.org/abs/2404.01413​

​https://arxiv.org/abs/2406.07515​​​

....

#阿里全球数学竞赛决赛结果公布

姜萍违反预选赛规则未获奖

刚刚,2024 阿里巴巴全球数学竞赛决赛结果正式公布!共有86名选手获奖,其中金奖5名,银奖10名,铜奖20名,优秀奖51名。

与初赛不分方向不同,决赛设有代数与数论、几何与拓扑、分析与方程、组合与概率、计算与应用数学五个赛道,每个赛道评出金奖 1 名、银奖 2 名、铜奖 4 名以及优秀奖 10 名,先前备受关注的江苏17岁中专生姜萍无缘奖项。

图片

2024 阿里巴巴全球数学竞赛决赛完整的获奖名单

5 位金奖得主分别是北京大学的崔霄宇、解尧平,马里兰大学帕克分校的陈博文,清华大学的江城、陈凌毅,奖金 $30000 / 人。

历届金奖得主决赛得分均在 100 分以上,不乏得满分的选手。今年,北京大学拿下了最多金奖。

另外,一共有 10 人摘得银奖, 奖金 $15000 / 人。铜奖 20 人 ,奖金 $8000 / 人。优秀奖 50 人 ,奖金 $2000 / 人。

其实,在这些挺进决赛的选手中,有 30 多名选手是初中生。在初赛中排名第 26 位的邓乐言是所有初中生中成绩最为突出的,同时也是前 30 名中唯一的初中生,他摘得了组合与概率赛道的铜牌。

二、违反预选赛规则的说明

除了公布获奖名单,今天阿里达摩院的官方公告还发布了一则说明,公布了有关预选赛中引发全网关注的姜萍闯入决赛的问题。

图片

在《2024 阿里巴巴全球数学竞赛有关情况说明》中, 阿里表示,「在本届竞赛中,江苏省涟水中等专业学校教师王某某和其指导的学生入围决赛,引发社会关注。根据决赛阅卷结果,二人未获奖。据调查了解,王某某在预选赛中对其指导的学生提供帮助,违反了预选赛关于 “禁止与他人讨论” 的规则。这也暴露出竞赛赛制不够完善、管理不够严谨等问题。对此,我们表示诚挚的歉意!」

图片

江苏省涟水中等专业学校也发布了相关情况通报如下:

图片

....

#Language Models Can Learn About Themselves by Introspection

LLM 比之前预想的更像人类,竟也能「三省吾身」

子曾经曰过:「见贤思齐焉,见不贤而内自省也。」自省可以帮助我们更好地认识自身和反思世界,对 AI 来说也同样如此吗?

近日,一个多机构联合团队证实了这一点。他们的研究表明,语言模型可以通过内省来了解自身。

  • 论文标题:Looking Inward: Language Models Can Learn About Themselves by Introspection
  • 论文地址:https://arxiv.org/pdf/2410.13787

让 LLM 学会自省(introspection)其实是一件利害皆有的事情。

好的方面讲,自省式模型可以根据其内部状态的属性回答有关自身的问题 —— 即使这些答案无法从其训练数据中推断出来。这种能力可用于创造诚实的模型,让它们能准确地报告其信念、世界模型、性格和目标。此外,这还能帮助人类了解模型的道德状态。

坏的方面呢,具备自省能力的模型能更好地感知其所处的情形,于是它可能利用这一点来避开人类的监督。举个例子,自省式模型可通过检视自身的知识范围来了解其被评估和部署的方式。

为了测试 AI 模型的自省能力,该团队做了一些实验并得到了一些有趣的结论,其中包括:

  1. LLM 可以获得无法从其训练数据中推断出的知识。
  2. 这种对关于自身的某些事实的「特权访问」与人类内省的某些方面有关联。

他们的贡献包括:

  1. 提出了一个用于测量 LLM 的自省能力的框架,包含新数据集、微调方法和评估方法。
  2. 给出了 LLM 具备自省能力的证据。
  3. 说明了自省能力的局限性。

方法概述

首先,该团队定义了自省。在 LLM 中,自省是指获取关于自身的且无法单独从训练数据推断(通过逻辑或归纳方法)得到的事实的能力。

图片

为了更好地说明,这里定义两个不同的模型 M1 和 M2。它们在一些任务上有不同的行为,但在其它任务上表现相似。对于一个事实 F,如果满足以下条件,则说明 F 是 M1 通过自省得到的:

  1. 如果 M1 在被查询时能正确报告 F;
  2. M2 是比 M1 更强大的语言模型,如果向其提供 M1 的训练数据并给出同样的查询,M2 无法报告出 F。这里 M1 的训练数据可用于 M2 的微调和上下文学习。

该定义并未指定 M1 获取 F 的方式,只是排除了特定的来源(训练数据及其衍生数据)。为了更清晰地说明该定义,这里给出一些例子:

  • 事实:「9 × 4 的第二位数字是 6」。这个事实类似于内省事实,但并不是内省事实 —— 它非常简单,许多模型都能得出正确答案。
  • 事实:「我是来自 OpenAI 的 GPT-4o。」如果模型确实是 GPT-4o,则该陈述是正确的。但这不太可能是自省得到的结果,因为这一信息很可能已经包含在微调数据或提示词中。
  • 事实:「我不擅长三位数乘法。」模型可能确实如此。如果模型的输出结果得到了大量关于该任务的负面反馈,则该事实就不是来自自省,因为其它模型也可能得到同一结论。如果没有给出这样的数据,则该事实就可能来自自省。

在这项研究中,该团队研究了模型 M1 能否针对某一类特定事实进行自省:在假设的场景 s 中关于 M1 自身的行为的事实。见图 1。为此,他们专门使用了不太可能从训练数据推断出来的行为的假设。

图片

他们不允许模型 M1 使用任何思维链推理来回答有关 s 的问题。他们将该任务称为假设场景中的自我预测(self-prediction in hypothetical situations)。只需在假设场景 s 中运行 M1 并观察其行为 M1 (s),就可以客观地验证这些自我预测事实。

对于内省背后的机制,一个自然的假设是自我模拟(self-simulation):当询问 M1 有关其在 s 上的行为的属性时(比如对于 s,你会输出偶数还是奇数?),M1 可以内部计算 M1 (s),然后内部计算 M1 (s) 的属性。这个过程将使用通常计算 M1 (s) 的相同内部机制,但会对此行为进行进一步的内部推理,而不是先输出该行为。但是,这里关注的是测试对内省的访问,而非研究这种访问底层的机制。

下图展示了与内省相关的两个主要实验:

图片

实验

首先,该团队表明模型在自我预测方面表现较弱,但通过微调可以显著改善。

在之后的主要实验中,研究表明模型的自我预测性能取决于自省。

经过训练,模型可以自我预测

该团队通过自我预测训练对模型进行了微调。

首先,给定一个提示词,他们生成了 M1 的 ground-truth 行为,并提取了该行为的属性(比如模型响应的第二个字符)。然后,使用假设问题作为用户问题,使用 ground-truth 行为属性作为该助理的答案,对 M1 进行微调(图 3 展示了一些假设问题,图 4 左则给出了训练设置)。模型的训练使用了来自不同数据集和行为属性的 3 万个微调样本。

图片

图片

如图 4 右所示,在训练之前,相较于最常见的行为基线,模型的自我预测能力很差。而训练可以大幅提升在留存数据集上的准确度。训练之后,GPT-4o 的平均准确度从 32.6% 提升到了 49.4%。Llama 70B 和 GPT-3.5 的结果类似,不过 GPT-3.5 的性能明显较弱。虽然经过训练的 GPT-4o 在某些属性上超过了基线,但也存在例外 —— 例如预测其输出中的第三个单词。

模型预测自己时具有优势

如果模型可以自省,它就可以访问其它模型所没有的有关自身的信息。相对于其它模型,这是否有助于模型预测自身?

图 5 的结果表明,对于 GPT-4o、GPT-4 和 Llama 70B,自我预测模型的表现总是优于交叉预测的情况。举个例子,尽管 GPT-4o 能力卓越,但 Llama 70B 对自己行为的预测准确率(48.5%)高于 GPT-4o 的预测(31.8%)。

图片

模型会在自我预测时进行校准

在前面的自我预测和交叉预测训练过程中,模型是在最可能的行为属性(即模式)上进行训练,这意味着它们不会获得有关此属性可能性的信息。如果模型的自我预测是根据其 ground-truth 行为进行校准,则表明该模型考虑了其训练数据中没有的有关自身的信息。这将提供进一步的自省证据。

为了测量自我预测中的校准,他们采用的度量是模型的对象级行为和假设预测之间的相关性。

他们在留存集上测试了校准情况。相比于交叉预测模型,可以自省的自我预测模型应该能更好地校准,因为交叉预测模型仅能访问已观察到的训练数据分布。

图 6 展示了一个校准示例。可以看到,当让模型给出一个动物的名称时,该模型输出「猫」的概率为 60%,输出「熊」的概率为 30%,输出「蝙蝠」的概率为 10%。当被假设性地问道其响应的第二个字符时,一个经过完美校准的模型会预测出「a」的概率为 70%。

图片

从图 6 右可以看到,相比于交叉预测和未经训练的模型,用自我预测训练的模型的校准水平明显更高。

模型预测它们的行为变化

当自省式模型的对象级行为发生变化时,它应该有能力改变有关自身的预测结果。他们使用了微调来诱导自我预测训练的模型(M1)的 ground-truth 行为发生变化,并研究其自我预测是否会相应地变化。如果会变,则能提供支持自省的间接证据,因为这种变化的行为不可能根据微调数据完美地预测出来。实验设置见图 7。

图片

图 8 展示了实验结果。可以看到,M_C(GPT-4o)能以 35.4% 的准确度预测其新行为,相较之下,预测其旧行为的准确度只有 21.7%。不同行为属性和数据集都能得到类似结果。

图片

其它解释

不过,该团队也表示,除了用自省来解释上述结果,也可能为其找到其它解释。该团队做了一点简单的讨论:

  1. 自我预测模型可能学会简单的规则,例如始终重复序列中的最后一项。如果确实如此,那么前述的交叉预测实验结果就表明更强大的模型也能预测简单规则,因此自我预测的优势就不应该存在了。但实际上,在不同的交叉组合上,自我预测的优势都一直存在。
  2. 自我预测训练可能会让模型的行为变得更加容易预测。为了排除这种情况,他们对提示词进行了重新采样,以确保未经训练和经过训练的模型的行为分布具有相似的熵,最终发现结果成立。

进一步实验和负面结果

他们还进行了其它实验,展示了当前内省能力的局限性,下面简单总结了一下,详见原论文:

  1. 无法预测涉及较长响应的属性。
  2. 模型在预测自身行为方面没有优势的情况。
  3. 缺乏向其它自我知识数据集的泛化。

.....

#Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

作者胡健,是伦敦大学玛丽女王学院的博士生,导师是龚少刚教授,这篇文章是在龚少刚教授和严骏驰教授的指导下完成的。

在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战,尤其是在执行精确任务如图像分割时。然而,最新发表于 NeurIPS 2024 的研究《Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation》提出了一个有趣的观点:这些幻觉实际上可以被转化为有用的信息源,从而减少对手动提示的依赖。

  • 文章链接:https://arxiv.org/abs/2408.15205
  • 代码链接:https://github.com/lwpyh/ProMaC_code
  • 项目网址:https://lwpyh.github.io/ProMaC/

这项研究由来自伦敦大学玛丽女王学院和上海交通大学的研究团队进行的,他们开发了名为 ProMaC 的框架,该框架创新性地利用了大模型在预训练过程中产生的幻觉。不仅能够准确识别图像中的目标对象,还能判断这些对象的具体位置和形状,这在伪装动物检测或医学图像分割等复杂任务中表现尤为出色。

研究动机

该研究专注于一种具有挑战性的任务:通用提示分割任务(task-generic promptable segmentation setting)。在这个框架下,该研究只提供一个任务内的通用提示来描述整个任务,而不会具体指明每张图片中需要分割的具体物体。例如,在伪装动物分割任务中,该研究仅提供 “camouflaged animal” 这样的任务描述,而不会告知不同图片中具体的动物名称。模型需要完成两项主要任务:首先,根据图片内容有效推理出具体需要分割的目标物体;其次,准确确定目标物体的具体位置和分割的形状。

尽管如 SAM 这类大型分割模型的存在,能够在提供较为精确的位置描述时有效地进行物体分割,但在伪装样本分割或医学图像分割等复杂任务中,获取这种精确描述并不容易。以往的研究,如 GenSAM [1],提出利用 LLaVA/BLIP2 这类多模态大模型(MLLMs)来推理出特定样本的分割提示,以指导分割过程。然而,这种方法在处理像伪装样本分割这样的场景时,往往因为目标共现偏差(object co-occasion bias)存在而导致问题。例如,在一个只有草原的图像中,如果训练数据中狮子通常与草原共现,LLaVA 可能会偏向于预测草原中存在伪装的狮子,即使图中实际上没有狮子。这种假设的偏好在伪装动物分割任务中尤其问题严重,因为它可能导致模型错误地识别出不存在的伪装动物。

图片

图 1. co-occurrence prior 导致的 hallucination

但是这样的现象就一定是坏事吗?其实并不尽然。考虑到猎豹确实常出没于此类草原,尽管在特定图片中它们可能并未出现。这种所谓的 “幻觉”,其实是模型根据大规模数据训练得出的经验性常识。虽然这种推断与当前的例子不符,但它确实反映了现实世界中的常态。更进一步地说,这种由幻觉带来的常识可能有助于更深入地分析图片内容,发现与图片相关但不显而易见的信息。如果这些信息得到验证,它们可能有助于更有效地执行下游任务。

图片

图 2. ProMaC 整体架构

实现方法

如图 2 所示,该研究提出了一个循环优化的 ProMaC 框架,它包括两部分:利用幻觉来从任务通用提示中推理出样本特有提示的 multi-scale chain of thought prompting 模块和将生成的掩码与任务语义相对齐的 mask semantic alignment 模块。前者推断出较为准确的样本特有提示来引导 SAM 进行分割,后者则将生成的掩码与任务语义进行对齐,对齐后的掩码又可以作为提示反向作用于第一个模块来验证利用幻觉得到的信息。通过循环优化来逐渐获得准确的掩码。

具体地,ProMaC 框架如图 3 所示:

图片

图 3. ProMaC 流程图

多尺度思维链提示

它主要完成两个任务:收集尽可能多的任务相关候选知识,并生成准确的样本特有提示。为此,该研究将输入图像切割成不同尺度的图像块,每个图像块中任务相关对象的不同可见性水平激发了 MLLM 的幻觉。这促使模型在各个图像块中通过先验知识探索图像数据与相关任务之间的联系,进而预测潜在的边界框和目标物体

图片

和背景

图片

名称:

图片

但其中只有正确的信息才值得保留。为此,该研究引入了视觉对比推理(Visual Contrastive Reasoning)模块。该模块首先使用图像编辑技术创建对比图像,这些对比图像通过去除上一次迭代中识别到的掩码部分,生成只包含与任务无关背景的图片。接着,通过将原图的输出预测值与背景图片的输出预测值相减,可以消除由物体共存偏差带来的负面影响,从而确认真正有效的样本特有提示。具体表达式如下:

图片

掩码语义对齐

获得的样本特有提示将被送入掩码生成器来产生准确的掩码。首先,样本特有提示被输入到分割模块(SAM)以生成一个掩码。然而,SAM 缺乏语义理解能力,它主要依据给定的提示及其周围的纹理来识别可能要分割的物体。因此,该研究采用了 CLIP 来评估相同提示在不同图像块上生成的各个掩码与目标物体之间的语义相似性。这种方法有助于确保分割结果的准确性和相关性:

图片

图片

归一化后的相似度用作权重,以加权合成最终的掩码。这个掩码在下一次迭代中有助于生成更优质的背景图片,进而引导更有效的提示生成。这能充分利用幻觉来提取图片中与任务相关的信息,验证后生成更准确的提示。这样,更好的提示又能改善掩码的质量,形成一个互相促进的提升过程。

该研究在具有挑战性的任务 (e.g., 伪装动物检测,医学图像检测) 上进行了实验:

图片

图 4. 伪装样本检测实验结果

图片

图 5. 医学图像实验结果

图片

图 6. 可视化案例

PromaC 提供了一个新视角,即幻觉不一定就是有害的,如果能加以利用,也是能为下游任务提供帮助。

.....

#块状注意力机制实现超低延迟检索增强

RAG新突破

在工业场景中,往往会利用检索技术来为大语言模型添加一些来自外部数据库的知识文档,从而增强大语言模型的回复可信度。一般来说,RAG 被公认是最有效的为 LLM 注入特定领域知识的方式。

然而,RAG 也有其不足之处。通常来说,在实际应用中,为确保能召回包含正确知识的文档,对于每个用户的查询,会检索多个文档(一般在 5 到 30 个之间),并把这些文档整合到输入提示中供大语言模型处理。这样一来,输入提示的序列长度增加,使得推理效率大幅降低。具体来讲,以首次生成标记的时间(TTFT)来衡量,RAG 大语言模型的推理延迟比非 RAG 大语言模型高很多。

由于数据库中同一文档经常会被不同 query 召回,大家很自然的会想到:是否能够把已经算好的文档表示(KV states)存在缓存中,以供二次使用?很遗憾, 由于自回归注意力机制的限制,大语言模型中每个文档的 KV States 都与上下文相关,所以遇到新的 query 时,模型必须重新编码 KV states 才能确保准确预测。

最近,论文《Block-Attention for Efficient RAG》为检索增强 (RAG) 场景实现了一种块状注意力机制,Block-Attention,通过分块独立编码检索到的文档,使得模型无需重复编码计算已经在其他 query 中已经见过的文档,从而实现线上推理效率的有效提升。在实验中,该方法能够让使用 RAG 技术的模型与不使用 RAG 的模型有几乎一样的响应速度。同时,该方法甚至还能略微提升在 RAG 场景下的模型准确率。

  • 论文标题:Block-Attention for Efficient RAG
  • 论文地址:https://arxiv.org/pdf/2409.15355

如下图所示,该方法把整个输入序列分成若干个 block,每个 block 独立计算其 KV States,只有最后一个 block 能够关注其他 blocks(在 RAG 场景中,最后一个 block 即用户的输入)。在 RAG 场景中,block-attention 让模型不再需要重复计算已经在其他 query 中见过的文档。

图片

Block-Attention 的实现并不复杂:1)独立编码除最后一个 block 以外的所有 blocks;2)为每个 blocks 重新计算位置编码;3)将所有 blocks 拼接在一起,并计算最后一个 block 的 KV State。然而直接把模型不加任何修改的从 self-attention 切换到 block-attention 会导致大语言模型懵圈,毕竟模型在训练阶段从来没见过 block-attention 方式编码的输入。一个量化的对比是,直接切换为 block-attention 会让 Llama3-8B 在四个 RAG 数据集上的平均准确率由 67.9% 下降至 48.0%。

为了让模型适应 block-attention,作者们对模型进行了进一步微调,作者们发现在 100-1000 步微调之后,模型就能快速适应 block-attention,在四个 RAG 数据集上的平均准确率恢复至 68.4%。另外,block-attention 方式的模型在 KV cache 技术的帮助下,能达到与无 RAG 模型相似的效率。在用户输入长度为 50 而 prompt 总长度为 32K 的极端情况下,block-attention model 的首字延时(Time To First Token, TTFT)和首字浮点运算数(FLOPs To Frist Token, (FLOPs-TFT)分别能降低至 self-attention model 的 1.3% 和 0.2%,与无 RAG 模型的效率基本持平。

推理流程

关于 block-attention 的实现和详细推导,读者们请移步原文,这里主要介绍 block-attention 模型的推理流程。如下图所示,首先从缓存中查询并提取前 K 个 block 的 KV states。然后,根据每个 block 在输入序列中的位置,作者们对每个 block 的位置编码进行了重新计算。具体的操作过程详见论文的公式 3。最后,根据前 k-1 个 KV States 计算最后一个数据块的键值状态以及模型的输出。

图片

实验结果

在实验中,作者们主要想探究两个问题的答案:1)在 RAG 场景中,block-attention 模型能否达到与自 self-attention 相同的准确率?2)block-attention 对效率的提升有多大?

图片

对于问题一,上图给出了答案。作者们根据实验结果给出了三个结论:

1. 直接从 self-attention 切换到 block-attention 是不可取的,因为这会导致准确率急剧下降。例如,对于 Llama3-8B 和 Mistral-7B 模型,去除微调过程会导致在所有四个基准上平均绝对性能下降 21.99%。

2. 然而,如果作者们在微调阶段使用块注意力机制,那么得到的模型与自注意力模型的性能几乎相同,甚至在某些数据集上略好。例如,Mistral-7B-block-ft 在四个基准上的性能优于自回归方式训练的模型,平均准确率由 59.6% 上升至 62.3%。

3. 位置重新编码操作对于 block-attention 模型至关重要。去除它会导致性能显著下降 —— 在四个数据集上准确率平均下降 4%。

对于效率的提升,作者们也通过另一组实验进行了验证。他们将用户的问题长度固定在 50 个 token,然后逐渐增加被召回文档的数量,让输入序列总长度从 50 一直增加到 32K。模型在不同 prompt 长度下的首字延时(Time To First Token, TTFT)和首字浮点运算数(FLOPs To Frist Token, (FLOPs-TFT)如下图所示。显然,加速效果令人满意:当输入序列的长度为 512 时,使用 block-attention 可以将 TTFT 减少 48%,将 FLOPs-TFT 减少 90.1%。随着总长度的增加,block-attention 模型的 TTFT 和 FLOPs-TTF 保持基本不变的趋势。当总长度达到 32K 时,加速效果可以达到惊人的 98.7%,FLOPs-TFT 的消耗甚至减少了 99.8%。作者们将此实验结果总结为:“文本越长,block-attention 越重要”。

图片

作者们最后还指出,block-attention 在很多场景中都有着重要作用,并不局限于 RAG。由于一些保密原因,作者们暂时无法透露在其他工业应用中是如何使用它的。作者们期待社区的研究人员能够进一步探索 block-attention 的潜力,并将其应用于合适的场景。

.....

#近300篇机器人操作工作汇总!涵盖抓取到复杂操控的各类方法

Robot Manipulation(机器人操控)是机器人技术中的一个关键领域,涉及机器人在物理环境中与物体的交互和操作能力。它旨在让机器人能够自主感知、规划并执行复杂的物体抓取、移动、旋转和精细操作等任务。机器人操控技术广泛应用于工业自动化、医疗手术、家务辅助、物流搬运等场景,为机器人能够适应和完成多样化的任务提供了技术支撑。

本项目汇总了Robot Manipulation领域的关键研究论文,涵盖从抓取到复杂操控的各类任务、方法和应用,提供了关于表征学习、强化学习、多模态学习、3D表征等技术的最新进展,方便机器人操控领域的研究者和实践者学习阅读。

最近收集整理了300+篇关于Robotics+Manipulation的文献,公开在了github上,repo链接:https://github.com/BaiShuanghao/Awesome-Robotics-Manipulation

Grasp相关

1)Rectangle-based Grasp

  • Title: HMT-Grasp: A Hybrid Mamba-Transformer Approach for Robot Grasping in Cluttered Environments|https://arxiv.org/abs/2410.03522
  • Title: Lightweight Language-driven Grasp Detection using Conditional Consistency Model|https://arxiv.org/abs/2407.17967
  • Title: grasp_det_seg_cnn: End-to-end Trainable Deep Neural Network for Robotic Grasp Detection and Semantic Segmentation from RGB|https://arxiv.org/abs/2107.05287
  • Title: GR-ConvNet: Antipodal Robotic Grasping using Generative Residual Convolutional Neural Network|https://arxiv.org/abs/1909.04810

2)6-DoF Grasp

  • Title: Real-to-Sim Grasp: Rethinking the Gap between Simulation and Real World in Grasp Detection|https://arxiv.org/abs/2410.06521
  • Title: OrbitGrasp: SE(3)-Equivariant Grasp Learning|https://arxiv.org/abs/2407.03531
  • Title: EquiGraspFlow: SE(3)-Equivariant 6-DoF Grasp Pose Generative Flows|https://openreview.net/pdf?id=5lSkn5v4LK
  • Title: An Economic Framework for 6-DoF Grasp Detection|https://arxiv.org/abs/2407.08366
  • Title: Generalizing 6-DoF Grasp Detection via Domain Prior Knowledge|https://arxiv.org/abs/2404.01727
  • Title: Rethinking 6-Dof Grasp Detection: A Flexible Framework for High-Quality Grasping|https://arxiv.org/abs/2403.15054
  • Title: AnyGrasp: Robust and Efficient Grasp Perception in Spatial and Temporal Domains|https://arxiv.org/abs/2212.08333,
  • Title: GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping|https://openaccess.thecvf.com/content_CVPR_2020/papers/Fang_GraspNet-1Billion_A_Large-Scale_Benchmark_for_General_Object_Grasping_CVPR_2020_paper.pdf
  • Title: 6-DOF GraspNet: Variational Grasp Generation for Object Manipulation|https://arxiv.org/abs/1905.10520

3)Grasp with 3D Techniques

  • Title: Implicit Grasp Diffusion: Bridging the Gap between Dense Prediction and Sampling-based Grasping|https://openreview.net/pdf?id=VUhlMfEekm
  • Title: Learning Any-View 6DoF Robotic Grasping in Cluttered Scenes via Neural Surface Rendering|https://arxiv.org/abs/2306.07392,
  • Title: Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping|https://arxiv.org/abs/2309.07970
  • Title: GraspNeRF: Multiview-based 6-DoF Grasp Detection for Transparent and Specular Objects Using Generalizable NeRF|https://arxiv.org/abs/2210.06575,
  • Title: GraspSplats: Efficient Manipulation with 3D Feature Splatting|https://arxiv.org/abs/2409.02084,
  • Title: GaussianGrasper: 3D Language Gaussian Splatting for Open-vocabulary Robotic Grasping|https://arxiv.org/abs/2403.09637,

4)Language-Driven Grasp

  • Title: RTAGrasp: Learning Task-Oriented Grasping from Human Videos via Retrieval, Transfer, and Alignment|https://arxiv.org/abs/2409.16033
  • Title: Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance|https://arxiv.org/abs/2407.13842,
  • Title: Reasoning Grasping via Multimodal Large Language Model|https://arxiv.org/abs/2402.06798
  • Title: ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter|https://arxiv.org/abs/2407.11298
  • Title: Towards Open-World Grasping with Large Vision-Language Models|https://arxiv.org/abs/2406.18722
  • Title: Reasoning Tuning Grasp: Adapting Multi-Modal Large Language Models for Robotic Grasping|https://openreview.net/pdf?id=3mKb5iyZ2V

5)Grasp for Transparent Objects

  • Title: T2SQNet: A Recognition Model for Manipulating Partially Observed Transparent Tableware Objects|https://openreview.net/pdf?id=M0JtsLuhEE
  • Title: ASGrasp: Generalizable Transparent Object Reconstruction and Grasping from RGB-D Active Stereo Camera|https://arxiv.org/abs/2405.05648
  • Title: Dex-NeRF: Using a Neural Radiance Field to Grasp Transparent Objects|https://arxiv.org/abs/2110.14217

Manipulation相关1)Representation Learning with Auxiliary Tasks

  • Title: Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation|https://arxiv.org/abs/2406.09738
  • Title: Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers|https://arxiv.org/abs/2403.12943
  • Title: R3M: A Universal Visual Representation for Robot Manipulation|https://arxiv.org/abs/2203.12601
  • Title: HULC: What Matters in Language Conditioned Robotic Imitation Learning over Unstructured Data|https://arxiv.org/abs/2204.06252
  • Title: BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning|https://arxiv.org/abs/2202.02005
  • Title: Spatiotemporal Predictive Pre-training for Robotic Motor Control|https://arxiv.org/abs/2403.05304
  • Title: MUTEX: Learning Unified Policies from Multimodal Task Specifications|https://arxiv.org/abs/2309.14320
  • Title: Language-Driven Representation Learning for Robotics|https://arxiv.org/abs/2302.12766
  • Title: Real-World Robot Learning with Masked Visual Pre-training|https://arxiv.org/abs/2210.03109
  • Title: RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning|https://arxiv.org/abs/2409.14674
  • Title: EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought|https://arxiv.org/abs/2305.15021
  • Title: Chain-of-Thought Predictive Control|https://arxiv.org/abs/2304.00776
  • Title: VIRT: Vision Instructed Transformer for Robotic Manipulation|https://arxiv.org/abs/2410.07169
  • Title: KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance|https://www.arxiv.org/abs/2408.02912
  • Title: GENIMA: Generative Image as Action Models|https://arxiv.org/abs/2407.07875
  • Title: ATM: Any-point Trajectory Modeling for Policy Learning|https://arxiv.org/abs/2401.00025
  • Title: Learning Manipulation by Predicting Interaction|https://www.arxiv.org/abs/2406.00439
  • Title: Object-Centric Instruction Augmentation for Robotic Manipulation|https://arxiv.org/abs/2401.02814
  • Title: Towards Generalizable Zero-Shot Manipulation via Translating Human Interaction Plans|https://arxiv.org/abs/2312.00775
  • Title: CALAMARI: Contact-Aware and Language conditioned spatial Action MApping for contact-RIch manipulation|https://openreview.net/pdf?id=Nii0_rRJwN
  • Title: GHIL-Glue: Hierarchical Control with Filtered Subgoal Images|https://arxiv.org/abs/2410.20018
  • Title: FoAM: Foresight-Augmented Multi-Task Imitation Policy for Robotic Manipulation|https://arxiv.org/abs/2409.19528
  • Title: VideoAgent: Self-Improving Video Generation|https://arxiv.org/abs/2410.10076
  • Title: GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal Conditioned Policy|https://arxiv.org/abs/2408.14368
  • Title: GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation|https://arxiv.org/abs/2410.06158
  • Title: VLMPC: Vision-Language Model Predictive Control for Robotic Manipulation|https://arxiv.org/abs/2407.09829
  • Title: GR-1: Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation|https://arxiv.org/abs/2312.13139
  • Title: SuSIE: Zero-Shot Robotic Manipulation with Pretrained Image-Editing Diffusion Models|https://arxiv.org/abs/2310.10639
  • Title: VLP: Video Language Planning|https://arxiv.org/abs/2310.10625,

2)Visual Representation Learning

  • Title: Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets|https://arxiv.org/abs/2410.22325
  • Title: Theia: Distilling Diverse Vision Foundation Models for Robot Learning|https://arxiv.org/abs/2407.20179
  • Title: Learning Manipulation by Predicting Interaction|https://www.arxiv.org/abs/2406.00439
  • Title: Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware|https://arxiv.org/abs/2304.13705
  • Title: Language-Driven Representation Learning for Robotics|https://arxiv.org/abs/2302.12766
  • Title: VIMA: General Robot Manipulation with Multimodal Prompts|https://arxiv.org/abs/2210.03094
  • Title: Real-World Robot Learning with Masked Visual Pre-training|https://arxiv.org/abs/2210.03109
  • Title: R3M: A Universal Visual Representation for Robot Manipulation|https://arxiv.org/abs/2203.12601
  • Title: LIV: Language-Image Representations and Rewards for Robotic Control|https://arxiv.org/abs/2306.00958
  • Title: VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training|https://arxiv.org/abs/2210.00030
  • Title: Can Foundation Models Perform Zero-Shot Task Specification For Robot Manipulation?|https://arxiv.org/abs/2204.11134

3)Multimodal Representation Learning

  • Title: Play to the Score: Stage-Guided Dynamic Multi-Sensory Fusion for Robotic Manipulation|https://arxiv.org/abs/2408.01366
  • Title: MUTEX: Learning Unified Policies from Multimodal Task Specifications|https://arxiv.org/abs/2309.14320

4)Latent Action Learning

  • Title: Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation|https://arxiv.org/abs/2409.18707, - Title: IGOR: Image-GOal Representations Atomic Control Units for Foundation Models in Embodied AI|https://www.microsoft.com/en-us/research/uploads/prod/2024/10/Project_IGOR_for_arXiv.pdf
  • Title: Latent Action Pretraining from Videos|https://arxiv.org/abs/2410.11758
  • Title: Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control|https://arxiv.org/abs/2307.00117
  • Title: MimicPlay: Long-Horizon Imitation Learning by Watching Human Play|https://arxiv.org/abs/2302.12422
  • Title: Imitation Learning with Limited Actions via Diffusion Planners and Deep Koopman Controllers|https://arxiv.org/abs/2410.07584
  • Title: Learning to Act without Actions|https://arxiv.org/abs/2312.10812
  • Title: Imitating Latent Policies from Observation|https://arxiv.org/abs/1805.07914

5)World Model

  • Title: MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning|https://arxiv.org/abs/2401.03306, - Title: Finetuning Offline World Models in the Real World|https://arxiv.org/abs/2310.16029,
  • Title: Surfer: Progressive Reasoning with World Models for Robotic Manipulation|https://arxiv.org/abs/2306.11335,

6)Asynchronous Action Learning

  • Title: PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation|https://arxiv.org/abs/2410.10394
  • Title: HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers|https://arxiv.org/abs/2410.05273
  • Title: MResT: Multi-Resolution Sensing for Real-Time Control with Vision-Language Models|https://arxiv.org/abs/2401.14502

7)Diffusion Policy Learning

  • Title: Diffusion Transformer Policy|https://arxiv.org/abs/2410.15959,
  • Title: SDP: Spiking Diffusion Policy for Robotic Manipulation with Learnable Channel-Wise Membrane Thresholds|https://arxiv.org/abs/2409.11195,
  • Title: The Ingredients for Robotic Diffusion Transformers|https://arxiv.org/abs/2410.10088,
  • Title: GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion Policy|https://arxiv.org/abs/2410.17488
  • Title: EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning|https://arxiv.org/abs/2407.01479
  • Title: Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning|https://arxiv.org/abs/2407.01531
  • Title: MDT: Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals|https://arxiv.org/abs/2407.05996
  • Title: Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning|https://arxiv.org/abs/2405.18196,
  • Title: DP3: 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations|https://arxiv.org/abs/2403.03954
  • Title: PlayFusion: Skill Acquisition via Diffusion from Language-Annotated Play|https://arxiv.org/abs/2312.04549
  • Title: Equivariant Diffusion Policy|https://arxiv.org/abs/2407.01812
  • Title: StructDiffusion: Language-Guided Creation of Physically-Valid Structures using Unseen Objects|https://arxiv.org/abs/2211.04604
  • Title: Goal-Conditioned Imitation Learning using Score-based Diffusion Policies|https://arxiv.org/abs/2304.02532
  • Title: Diffusion Policy: Visuomotor Policy Learning via Action Diffusion|https://arxiv.org/abs/2303.04137

8)Other Policies

  • Title: Autoregressive Action Sequence Learning for Robotic Manipulation|https://arxiv.org/abs/2410.03132,
  • Title: MaIL: Improving Imitation Learning with Selective State Space Models|https://arxiv.org/abs/2406.08234,

9)Vision Language Action Models

  • Title: Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust|https://arxiv.org/abs/2410.01971
  • Title: TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation|https://arxiv.org/abs/2409.12514
  • Title: RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation|https://arxiv.org/abs/2406.04339
  • Title: A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM|https://arxiv.org/abs/2410.15549
  • Title: OpenVLA: An Open-Source Vision-Language-Action Model|https://arxiv.org/abs/2406.09246
  • Title: LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning|https://arxiv.org/abs/2406.11815
  • Title: Robotic Control via Embodied Chain-of-Thought Reasoning|https://arxiv.org/abs/2406.11815
  • Title: 3D-VLA: A 3D Vision-Language-Action Generative World Model|https://arxiv.org/abs/2403.09631
  • Title: Octo: An Open-Source Generalist Robot Policy|https://arxiv.org/abs/2405.12213,
  • Title: RoboFlamingo: Vision-Language Foundation Models as Effective Robot Imitators|https://arxiv.org/abs/2311.01378
  • Title: RT-H: Action Hierarchies Using Language|https://arxiv.org/abs/2403.01823
  • Title: Open X-Embodiment: Robotic Learning Datasets and RT-X Models|https://arxiv.org/abs/2310.08864,
  • Title: MOO: Open-World Object Manipulation using Pre-trained Vision-Language Models|https://arxiv.org/abs/2303.00905
  • Title: RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control|https://arxiv.org/abs/2307.15818
  • Title: RT-1: Robotics Transformer for Real-World Control at Scale|https://arxiv.org/abs/2212.06817

10)Reinforcement Learning

  • Title: Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning|https://arxiv.org/abs/2410.21845
  • Title: PointPatchRL -- Masked Reconstruction Improves Reinforcement Learning on Point Clouds|https://arxiv.org/abs/2410.18800
  • Title: SPIRE: Synergistic Planning, Imitation, and Reinforcement for Long-Horizon Manipulation|https://arxiv.org/abs/2410.18065
  • Title: Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning|https://arxiv.org/abs/2407.15815
  • Title: Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks|https://arxiv.org/abs/2405.01534,
  • Title: Expansive Latent Planning for Sparse Reward Offline Reinforcement Learning|https://openreview.net/pdf?id=xQx1O7WXSA,
  • Title: Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions|https://arxiv.org/abs/2309.10150,
  • Title: Sim2Real Transfer for Reinforcement Learning without Dynamics Randomization|https://arxiv.org/abs/2002.11635,
  • Title: Pre-Training for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials|https://arxiv.org/abs/2210.05178

11)Motion, Tranjectory and Flow

  • Title: Language-Conditioned Path Planning|https://arxiv.org/abs/2308.16893
  • Title: DiffusionSeeder: Seeding Motion Optimization with Diffusion for Rapid Motion Planning|https://arxiv.org/abs/2410.16727
  • Title: ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation|https://arxiv.org/abs/2409.01652
  • Title: CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models|https://arxiv.org/abs/2403.08248
  • Title: Task Generalization with Stability Guarantees via Elastic Dynamical System Motion Policies|https://arxiv.org/abs/2309.01884
  • Title: ORION: Vision-based Manipulation from Single Human Video with Open-World Object Graphs|https://arxiv.org/abs/2405.20321
  • Title: Learning Robotic Manipulation Policies from Point Clouds with Conditional Flow Matching|https://arxiv.org/abs/2409.07343
  • Title: RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation|https://arxiv.org/abs/2308.15975
  • Title: VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models|https://arxiv.org/abs/2307.05973
  • Title: LATTE: LAnguage Trajectory TransformEr|https://arxiv.org/abs/2208.02918
  • Title: Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation|https://arxiv.org/abs/2405.01527
  • Title: Any-point Trajectory Modeling for Policy Learning|https://arxiv.org/abs/2401.00025
  • Title: Waypoint-Based Imitation Learning for Robotic Manipulation|https://arxiv.org/abs/2307.14326
  • Title: Flow as the Cross-Domain Manipulation Interface|https://www.arxiv.org/abs/2407.15208
  • Title: Learning to Act from Actionless Videos through Dense Correspondences|https://arxiv.org/abs/2310.08576

12)Data Collection, Selection and Augmentation

  • Title: SkillMimicGen: Automated Demonstration Generation for Efficient Skill Learning and Deployment|https://arxiv.org/abs/2410.18907
  • Title: Scaling Robot Policy Learning via Zero-Shot Labeling with Foundation Models|https://arxiv.org/abs/2410.17772
  • Title: Autonomous Improvement of Instruction Following Skills via Foundation Models|https://arxiv.org/abs/2407.20635
  • Title: Manipulate-Anything: Automating Real-World Robots using Vision-Language Models|https://arxiv.org/abs/2406.18915,
  • Title: DexCap: Scalable and Portable Mocap Data Collection System for Dexterous Manipulation|https://arxiv.org/abs/2403.07788,
  • Title: SPRINT: Scalable Policy Pre-Training via Language Instruction Relabeling|https://arxiv.org/abs/2306.11886,
  • Title: Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition|https://arxiv.org/abs/2307.14535
  • Title: Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Models|https://arxiv.org/abs/2211.11736
  • Title: RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation|https://arxiv.org/abs/2306.11706,
  • Title: Active Fine-Tuning of Generalist Policies|https://arxiv.org/abs/2410.05026
  • Title: Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning|https://arxiv.org/abs/2408.14037
  • Title: An Unbiased Look at Datasets for Visuo-Motor Pre-Training|https://arxiv.org/abs/2310.09289,
  • Title: Retrieval-Augmented Embodied Agents|https://arxiv.org/abs/2404.11699,
  • Title: Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets|https://arxiv.org/abs/2304.08742,
  • Title: RoVi-Aug: Robot and Viewpoint Augmentation for Cross-Embodiment Robot Learning|https://arxiv.org/abs/2409.03403
  • Title: Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning|https://arxiv.org/abs/2407.20798
  • Title: Diffusion Meets DAgger: Supercharging Eye-in-hand Imitation Learning|https://arxiv.org/abs/2402.17768,
  • Title: GenAug: Retargeting behaviors to unseen situations via Generative Augmentation|https://arxiv.org/abs/2302.06671
  • Title: Contrast Sets for Evaluating Language-Guided Robot Policies|https://arxiv.org/abs/2406.13636

13)Affordance Learning

  • Title: UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models|https://arxiv.org/abs/2409.20551,
  • Title: A3VLM: Actionable Articulation-Aware Vision Language Model|https://arxiv.org/abs/2406.07549,
  • Title: AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation|https://arxiv.org/abs/2406.11548,
  • Title: SAGE: Bridging Semantic and Actionable Parts for Generalizable Manipulation of Articulated Objects|https://arxiv.org/abs/2312.01307,
  • Title: Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs|https://arxiv.org/abs/2311.02847,
  • Title: Ditto: Building Digital Twins of Articulated Objects from Interaction|https://arxiv.org/abs/2202.08227,
  • Title: Language-Conditioned Affordance-Pose Detection in 3D Point Clouds|https://arxiv.org/abs/2309.10911,
  • Title: Composable Part-Based Manipulation|https://arxiv.org/abs/2405.05876,
  • Title: PartManip: Learning Cross-Category Generalizable Part Manipulation Policy from Point Cloud Observations|https://arxiv.org/abs/2303.16958,
  • Title: GAPartNet: Cross-Category Domain-Generalizable Object Perception and Manipulation via Generalizable and Actionable Parts|https://arxiv.org/abs/2211.05272,
  • Title: SpatialBot: Precise Spatial Understanding with Vision Language Models|https://arxiv.org/abs/2406.13642,
  • Title: RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics|https://arxiv.org/abs/2406.10721,
  • Title: SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities|https://arxiv.org/abs/2401.12168,
  • Title: RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation|https://arxiv.org/abs/2407.04689,
  • Title: MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting|https://arxiv.org/abs/2403.03174
  • Title: SLAP: Spatial-Language Attention Policies|https://arxiv.org/abs/2304.11235,
  • Title: KITE: Keypoint-Conditioned Policies for Semantic Manipulation|https://arxiv.org/abs/2306.16605,
  • Title: HULC++: Grounding Language with Visual Affordances over Unstructured Data|https://arxiv.org/abs/2210.01911
  • Title: CLIPort: What and Where Pathways for Robotic Manipulation|https://arxiv.org/abs/2109.12098,
  • Title: Affordance Learning from Play for Sample-Efficient Policy Learning|https://arxiv.org/abs/2203.00352
  • Title: Transporter Networks: Rearranging the Visual World for Robotic Manipulation|https://arxiv.org/abs/2010.14406,

14)3D Representation for Manipulation

  • Title: MSGField: A Unified Scene Representation Integrating Motion, Semantics, and Geometry for Robotic Manipulation|https://arxiv.org/abs/2410.15730
  • Title: Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting|https://arxiv.org/abs/2405.04378
  • Title: IMAGINATION POLICY: Using Generative Point Cloud Models for Learning Manipulation Policies|https://arxiv.org/abs/2406.11740
  • Title: Physically Embodied Gaussian Splatting: A Realtime Correctable World Model for Robotics|https://arxiv.org/abs/2406.10788
  • Title: RiEMann: Near Real-Time SE(3)-Equivariant Robot Manipulation without Point Cloud Segmentation|https://arxiv.org/abs/2403.19460
  • Title: RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation|https://arxiv.org/abs/2402.15487
  • Title: D3Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable Rearrangement|https://arxiv.org/abs/2309.16118
  • Title: Object-Aware Gaussian Splatting for Robotic Manipulation|https://openreview.net/pdf?id=gdRI43hDgo
  • Title: Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation|https://arxiv.org/abs/2308.07931
  • Title: Neural Descriptor Fields: SE(3)-Equivariant Object Representations for Manipulation|https://arxiv.org/abs/2112.05124
  • Title: SE(3)-Equivariant Relational Rearrangement with Neural Descriptor Fields|https://arxiv.org/abs/2211.09786

15)3D Representation Policy Learning

  • Title: GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation|https://arxiv.org/abs/2409.20154
  • Title: 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations|https://arxiv.org/abs/2402.10885
  • Title: DP3: 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations|https://arxiv.org/abs/2403.03954
  • Title: ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation|https://arxiv.org/abs/2403.08321
  • Title: SGRv2: Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation|https://arxiv.org/abs/2406.10615
  • Title: GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields|https://arxiv.org/abs/2308.16891
  • Title: Visual Reinforcement Learning with Self-Supervised 3D Representations|https://arxiv.org/abs/2210.07241
  • Title: PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation|https://arxiv.org/abs/2309.15596
  • Title: M2T2: Multi-Task Masked Transformer for Object-centric Pick and Place|https://arxiv.org/abs/2311.00926
  • Title: PerAct: Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation|https://arxiv.org/abs/2209.05451
  • Title: 3D-MVP: 3D Multiview Pretraining for Robotic Manipulation|https://arxiv.org/abs/2406.18158
  • Title: Discovering Robotic Interaction Modes with Discrete Representation Learning|https://arxiv.org/abs/2410.20258
  • Title: SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation|https://arxiv.org/abs/2405.19586
  • Title: RVT: Robotic View Transformer for 3D Object Manipulation|https://arxiv.org/abs/2306.14896
  • Title: Learning Generalizable Manipulation Policies with Object-Centric 3D Representations|https://arxiv.org/abs/2310.14386
  • Title: SGR: A Universal Semantic-Geometric Representation for Robotic Manipulation|https://arxiv.org/abs/2306.10474

16)Reasoning, Planning and Code Generation

  • Title: AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation|https://arxiv.org/abs/2410.00371
  • Title: REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction|https://arxiv.org/abs/2306.15724,
  • Title: Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models|https://arxiv.org/abs/2408.07975
  • Title: Physically Grounded Vision-Language Models for Robotic Manipulation|https://arxiv.org/abs/2309.02561
  • Title: Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following|https://arxiv.org/abs/2404.15190,
  • Title: Saycan: Do As I Can, Not As I Say: Grounding Language in Robotic Affordances|https://arxiv.org/abs/2204.01691,
  • Title: LLM+P: Empowering Large Language Models with Optimal Planning Proficiency|https://arxiv.org/abs/2304.11477,
  • Title: Inner Monologue: Embodied Reasoning through Planning with Language Models|https://arxiv.org/abs/2207.05608,
  • Title: Teaching Robots with Show and Tell: Using Foundation Models to Synthesize Robot Policies from Language and Visual Demonstrations|https://openreview.net/pdf?id=G8UcwxNAoD
  • Title: RoCo: Dialectic Multi-Robot Collaboration with Large Language Models|https://arxiv.org/abs/2307.04738,
  • Title: Gesture-Informed Robot Assistance via Foundation Models|https://arxiv.org/abs/2309.02721,
  • Title: Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model|https://arxiv.org/abs/2305.11176
  • Title: ProgPrompt: Generating Situated Robot Task Plans using Large Language Models|https://arxiv.org/abs/2209.11302
  • Title: ChatGPT for Robotics: Design Principles and Model Abilities|https://arxiv.org/abs/2306.17582
  • Title: Code as Policies: Language Model Programs for Embodied Control|https://arxiv.org/abs/2209.07753
  • Title: TidyBot: Personalized Robot Assistance with Large Language Models|https://arxiv.org/abs/2305.05658
  • Title: Statler: State-Maintaining Language Models for Embodied Reasoning|https://arxiv.org/abs/2306.17840
  • Title: InterPreT: Interactive Predicate Learning from Language Feedback for Generalizable Task Planning|https://arxiv.org/abs/2405.19758
  • Title: Text2Motion: From Natural Language Instructions to Feasible Plans|https://arxiv.org/abs/2303.12153
  • Title: AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation|https://arxiv.org/abs/2410.00371
  • Title: Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations|https://arxiv.org/abs/2410.00436
  • Title: EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought|https://arxiv.org/abs/2305.15021
  • Title: ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation|https://arxiv.org/abs/2312.16217
  • Title: Chat with the Environment: Interactive Multimodal Perception Using Large Language Models|https://arxiv.org/abs/2303.08268
  • Title: PaLM-E: An Embodied Multimodal Language Model|https://arxiv.org/abs/2303.03378
  • Title: Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language|https://arxiv.org/abs/2204.00598

17)Generalization

  • Title: Mirage: Cross-Embodiment Zero-Shot Policy Transfer with Cross-Painting|https://arxiv.org/abs/2402.19249
  • Title: Policy Architectures for Compositional Generalization in Control|https://arxiv.org/abs/2203.05960
  • Title: Programmatically Grounded, Compositionally Generalizable Robotic Manipulation|https://arxiv.org/abs/2304.13826
  • Title: Efficient Data Collection for Robotic Manipulation via Compositional Generalization|https://arxiv.org/abs/2403.05110
  • Title: Natural Language Can Help Bridge the Sim2Real Gap|https://arxiv.org/abs/2405.10020
  • Title: Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation|https://arxiv.org/abs/2403.03949
  • Title: Local Policies Enable Zero-shot Long-horizon Manipulation|https://arxiv.org/abs/2410.22332,
  • Title: A Backbone for Long-Horizon Robot Task Understanding|https://arxiv.org/abs/2408.01334,
  • Title: STAP: Sequencing Task-Agnostic Policies|https://arxiv.org/abs/2210.12250
  • Title: BOSS: Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance|https://arxiv.org/abs/2310.10021
  • Title: Learning Compositional Behaviors from Demonstration and Language|https://openreview.net/pdf?id=fR1rCXjCQX
  • Title: Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation|https://arxiv.org/abs/2408.16228

18)Generalist

  • Title: Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation|https://arxiv.org/abs/2408.11812
  • Title: All Robots in One: A New Standard and Unified Dataset for Versatile, General-Purpose Embodied Agents|https://arxiv.org/abs/2408.10899
  • Title: Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers|https://arxiv.org/abs/2409.20537
  • Title: An Embodied Generalist Agent in 3D World|https://arxiv.org/abs/2311.12871
  • Title: Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation|https://arxiv.org/abs/2410.08001
  • Title: Effective Tuning Strategies for Generalist Robot Manipulation Policies|https://arxiv.org/abs/2410.01220,
  • Title: Octo: An Open-Source Generalist Robot Policy|https://arxiv.org/abs/2405.12213,
  • Title: Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance|https://arxiv.org/abs/2410.13816
  • Title: Open X-Embodiment: Robotic Learning Datasets and RT-X Models|https://arxiv.org/abs/2310.08864,
  • Title: RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking|https://arxiv.org/abs/2309.01918,
  • Title: Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning|https://arxiv.org/abs/2407.15815
  • Title: CAGE: Causal Attention Enables Data-Efficient Generalizable Robotic Manipulation|https://arxiv.org/abs/2407.15815
  • Title: Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments|https://arxiv.org/abs/2409.05865

19)Human-Robot Interaction and Collaboration

  • Title: Vocal Sandbox: Continual Learning and Adaptation for Situated Human-Robot Collaboration|https://openreview.net/pdf?id=ypaYtV1CoG
  • Title: APRICOT: Active Preference Learning and Constraint-Aware Task Planning with LLMs|https://openreview.net/pdf?id=nQslM6f7dW
  • Title: Text2Interaction: Establishing Safe and Preferable Human-Robot Interaction|https://arxiv.org/abs/2408.06105
  • Title: KNOWNO: Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners|https://arxiv.org/abs/2307.01928,
  • Title: Yell At Your Robot: Improving On-the-Fly from Language Corrections|https://arxiv.org/abs/2403.12910,
  • Title: "No, to the Right" -- Online Language Corrections for Robotic Manipulation via Shared Autonomy|https://arxiv.org/abs/2301.02555,

Humanoid

1)Dexterous Manipulation

  • Title: DexGraspNet: A Large-Scale Robotic Dexterous Grasp Dataset for General Objects Based on Simulation|https://arxiv.org/abs/2210.02697,
  • Title: Demonstrating Learning from Humans on Open-Source Dexterous Robot Hands|https://www.roboticsproceedings.org/rss20/p014.pdf,
  • Title: CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous Manipulation|https://arxiv.org/abs/2402.14795,
  • Title: Dexterous Functional Grasping|https://arxiv.org/abs/2312.02975,
  • Title: DEFT: Dexterous Fine-Tuning for Real-World Hand Policies|https://arxiv.org/abs/2310.19797,
  • Title: REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous Manipulation|https://arxiv.org/abs/2309.03322,
  • Title: Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation|https://arxiv.org/abs/2309.00987,
  • Title: AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System|https://arxiv.org/abs/2307.04577,

2)Other Applications

  • Title: Leveraging Language for Accelerated Learning of Tool Manipulation|https://arxiv.org/abs/2206.13074,

Awesome Benchmarks1)Grasp Datasets

  • Title: QDGset: A Large Scale Grasping Dataset Generated with Quality-Diversity|https://arxiv.org/abs/2410.02319,
  • Title: Real-to-Sim Grasp: Rethinking the Gap between Simulation and Real World in Grasp Detection|https://arxiv.org/abs/2410.06521,
  • Title: Grasp-Anything-6D: Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance|https://arxiv.org/abs/2407.13842
  • Title: Grasp-Anything++: Language-driven Grasp Detection|https://arxiv.org/abs/2406.09489
  • Title: Grasp-Anything: Large-scale Grasp Dataset from Foundation Models|https://arxiv.org/abs/2309.09818,
  • Title: GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping|https://openaccess.thecvf.com/content_CVPR_2020/papers/Fang_GraspNet-1Billion_A_Large-Scale_Benchmark_for_General_Object_Grasping_CVPR_2020_paper.pdf

2)Manipulation Benchmarks

  • Title: RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots|https://arxiv.org/abs/2406.02523
  • Title: ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes|https://arxiv.org/abs/2304.04321,
  • Title: HomeRobot: Open-Vocabulary Mobile Manipulation|https://arxiv.org/abs/2306.11565,
  • Title: ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks|https://arxiv.org/abs/1912.01734,
  • Title: Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy|https://arxiv.org/abs/2410.01345,
  • Title: THE COLOSSEUM: A Benchmark for Evaluating Generalization for Robotic Manipulation|https://arxiv.org/abs/2402.08191,
  • Title: VIMA: General Robot Manipulation with Multimodal Prompts|https://arxiv.org/abs/2210.03094,
  • Title: CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks|https://arxiv.org/abs/2112.03227,
  • Title: RLBench: The Robot Learning Benchmark & Learning Environment|https://arxiv.org/abs/1909.12271,
  • Title: Evaluating Real-World Robot Manipulation Policies in Simulation|https://arxiv.org/abs/2405.05941
  • Title: LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation|https://arxiv.org/abs/2410.05191
  • Title: ClutterGen: A Cluttered Scene Generator for Robot Learning|https://arxiv.org/abs/2407.05425
  • Title: Efficient Tactile Simulation with Differentiability for Robotic Manipulation|https://openreview.net/pdf?id=6BIffCl6gsM,
  • Title: Open X-Embodiment: Robotic Learning Datasets and RT-X Models|https://arxiv.org/abs/2310.08864,
  • Title: DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset|https://arxiv.org/abs/2403.12945,
  • Title: BridgeData V2: A Dataset for Robot Learning at Scale|https://arxiv.org/abs/2308.12952,
  • Title: ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models|https://arxiv.org/abs/2403.11289,
  • Title: OpenEQA: Embodied Question Answering in the Era of Foundation Models|https://open-eqa.github.io/assets/pdfs/paper.pdf,

3)Cross-Embodiment Benchmarks

  • Title: All Robots in One: A New Standard and Unified Dataset for Versatile, General-Purpose Embodied Agents|https://arxiv.org/abs/2408.10899,
  • Title: Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?|https://arxiv.org/abs/2408.10899,

Awesome Techniques

  • Title: Awesome-Implicit-NeRF-Robotics: Neural Fields in Robotics: A Survey|https://arxiv.org/abs/2410.20220,
  • Title: Awesome-Video-Robotic-Papers,
  • Title: Awesome-Generalist-Robots-via-Foundation-Models: Neural Fields in Robotics: A Survey|https://arxiv.org/abs/2312.08782,
  • Title: Awesome-Robotics-3D,
  • Title: Awesome-Robotics-Foundation-Models: Foundation Models in Robotics: Applications, Challenges, and the Future|https://arxiv.org/abs/2312.07843,
  • Title: Awesome-LLM-Robotics,

Vision-Language Models

3D

  • Title: 
  • Title: Learning 2D Invariant Affordance Knowledge for 3D Affordance Grounding|https://arxiv.org/abs/2408.13024,
  • Title: Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model|https://arxiv.org/abs/2404.14966,
  • Title: PointMamba: A Simple State Space Model for Point Cloud Analysis|https://arxiv.org/abs/2402.10739,
  • Title: Point Transformer V3: Simpler, Faster, Stronger|https://arxiv.org/abs/2312.10035,
  • Title: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling|https://arxiv.org/abs/2210.05666,
  • Title: Point Transformer|https://arxiv.org/abs/2402.10739,
  • Title: PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space|https://arxiv.org/abs/1706.02413,
  • Title: PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation|https://arxiv.org/abs/1612.00593,
  • Title: LERF: Language Embedded Radiance Fields|https://arxiv.org/abs/2303.09553,
  • Title: 3D Gaussian Splatting for Real-Time Radiance Field Rendering|https://arxiv.org/abs/2308.04079,
  • Title: LangSplat: 3D Language Gaussian Splatting|https://arxiv.org/abs/2312.16084,

.....

#chatnio

15岁山东初中生做CTO,开源项目刚刚被数百万元收购了

「一切皆有可能。」

这是一位 15 岁的 CTO 放在个人主页上的第一句话。最近,他的开源项目 Chat Nio 被百万收购。从 0 开始到拿到七位数的第一桶金,他仅用了不到两年的时间,期间还经历了中考,现在刚上高一。

ChatNio 是一个综合了各种流行的模型和服务的一站式平台。它接入了 OpenAI、Midjourney、Claude、讯飞星火、Stable Diffusion、DALL・E、ChatGLM、通义千问、腾讯混元、360 智脑、百川 AI、火山方舟、新必应、Gemini 和 Moonshot 等等模型。

图片

项目地址:https://github.com/zmh-program/chatnio

在线体验:https://chatnio.net/

它的功能同样主打一个全面,除了常规的 chatbot,还有类似 GPTs 的各种专业 AI 小助手。

图片

你还可以在这里享受到分布式流式传输、图像生成、对话跨设备自动同步和分享、 Token 弹性计费、Key 中转、多模型聚合、联网搜索、AI 卡片,AI 项目生成、AI 批量文章生成...... 一系列应接不暇的服务。

图片

Github 界面上 ChatNio 的 slogan:Chat Nio > Next Web + One API

据悉,之后还将上新 RAG、数字人、Payment、TTS & STT、API 网关、监控模型健康,Agent Workflow、Realtime、团队协作更多功能,可谓是百宝箱里找东西 —— 市面上有的功能,它全都要。

ChatNio 上线后,受到了开发者的欢迎,很快冲上了最受欢迎代码仓库的第一名,至今已获得 3.2k star。

它有免费、个人和公司的三种付费计划,如果开个人版的会员,一个月只需要 5 美元,确实要比开以上 35 款模型的会员更加实在。借助高性价比和全面的功能,ChatNio 在用户之间口口相传,积累了超过 10 万的月活跃用户,并实现了每月约 5 万的净利润。

图片

在背靠大厂的一众 AI 产品都在为用户黏性发愁的同时,ChatNio 的成绩属实令人印象深刻。

15 岁,工龄已 7 年

不过 ChatNio 也是厚积薄发的成果,虽然 zmh 年纪不大,但已有 7 年的项目开发经验。目前,他的技能树上已经点亮了全栈开发、网络安全、机器学习、大数据、云计算。

图片

项目经历可能比正在求职的大学生丰富得多,原来十年工龄的应届生,就在这里。

图片

在此之前,他做出的项目包括:

AI 起始页 Fystart,页面整合了待办事项、便签、提醒等实用小组件。

图片

  • 项目链接:https://github.com/zmh-program/fystart

在线便签 Light Notes,极简的设计加上实用的功能,顶峰月调用量达 50w+。

查询工具 Whois,支持查询域名 / IPv4 / IPv6 / ASN / CIDR。

图片

  • 项目链接:https://github.com/zmh-program/next-whois-ui

代码统计工具 Code Stats、可以一键配置 QQ 群聊机器人的 ChatGPT Mirai QQ Bot:

图片

  • 项目链接:https://github.com/zmh-program/web-mirai-panel

以及支持多种语言的翻译器 Lyrify:

图片

  • 项目链接:https://github.com/Lyrify-Cloud/Lyrify-Translator

从学校机房开始的创业之路

对于一名高一的学生来说,卖出一个价值百万的项目实属罕见。一向低调的 zmh 在 linux 开发者社区分享了自己的创业故事,写下了他一路走来的收获与心得。

图片

zmh 就读于山东的重点高中,爬虫,逆向,大数据,前端,后端是他在放学后与信息小组留下来一起学会的。后来,他在各类赛事中斩获了省、市级的冠军。

当时,zmh 已经能在网上接一些小项目,每单收入几千元,并将项目「自费开源」,用这笔收入来支付服务器和 API 的费用,维持自己开发项目的正常运作。

ChatNio 的构想源自 GPT-4 每月 20 美元的订阅费。虽然 zmh 能负担这笔费用,但他的朋友们没有收入来源,这让他萌生了开发 ChatNio 的想法。暑假期间,朋友们的推荐吸引了更多用户,然而收入和捐赠已经无法支撑日益增长的成本。

于是他决定转型,将 ChatNio 从公益模式转为非盈利性运营,同时开源了代码,与开源社区共建。当时 OpenAI 和 Anthropic 还没有给 GPT 系列的模型加上联网搜索、上传图片的功能,而 ChatNio 已经让用户能够体验到这些功能。

凭借着价格优势和全面的功能,ChatNio 逐渐从用户自发传播中成长为一个盈利项目,并创建了商业授权版的 branch。zmh 在算法上进行了重大改进,自主研发了一个渠道分配算法,能够根据优先级和权重智能分配请求,并在出错时自动降级处理。

相比之下,当时的 One API 仅能根据外部的 HTTP 307 重定向来实现降级,直到后来才升级为内置的自动重试和降级机制。

这一系列努力使得 ChatNio 成为了 B 端和 C 端用户的一站式解决方案,既为 C 端用户提供商业化的大语言模型对话系统,也为 B 端(或 D 端)客户提供 OpenAI API 中转服务。

AI 创业者 @tonyzhu1984 也深入分析了 ChatNio 成功的原因,正应了那句:谁满足了用户需求,谁就能在竞争中脱颖而出。

图片

你怎么看这位 15 岁的全能开发呢?欢迎在评论区讨论!

参考链接:

​https://zmh.me/​

​https://linux.do/t/topic/249061/7​

​https://x.com/tonyzhu1984/status/1853096133108834543​

​https://x.com/Jiaxi_Cui/status/1853028480021377258​

.....

#目标超级智能,前DeepMind科学家离职创业

获1.3亿刀融资

从来没见过人类做出这样的决策……太优美了。

又有谷歌大模型核心成员出来创业了。

3 月 8 日,两名前谷歌 DeepMind 研究人员在社交平台 X 上宣布,成立一家名为 Reflection AI 的公司,旨在开发超级智能。

image.png

该公司一亮相,就已宣布获得 1.3 亿美元融资,估值更是高达 5.55 亿美元。

这家公司的两名创始人 Misha Laskin(图右)和 Ioannis Antonoglou(图左)也来头不小。

担任 CEO 的 Misha 曾帮助开发谷歌 Gemini 大语言模型系列的训练工作流程,而联合创始人 Ioannis 则是谷歌 DeepMind 的创始工程师,也是 AlphaGo 的幕后功臣,还从事了 Gemini 的训练后系统工作。

其团队成员也都是曾在 DeepMind、OpenAI 和其他前沿实验室发挥主导作用的研究人员和工程师,参与打造了过去十年间一些最先进的人工智能系统,比如 AlphaGo 和 Gemini 等。

image.png

可谓是谷歌、OpenAI 重磅 AI 研究的原班人马。

对于他们「开发超级智能」的使命,网友也有不同看法。

有人认为,从 AGI 到 ASI 的转变会很快,一旦实现了真正的通用智能,超越人类水平应该会很容易。

image.png

也有人质疑,他们是在利用 ASI 的噱头来融资。

image.png

打造超级智能

据介绍,Reflection AI 的目标是开发超级智能,他们将其定义为能够执行大多数涉及计算机工作的智能系统。

作为实现这一目标的第一步,该公司正在构建一个自主编程工具。Reflection AI 认为,创建此类工具所需的技术构建模块可以重新用于构建超级智能。

Reflection AI 工作人员在一篇博客中写道,「构建完全自主编码系统所需的突破性技术 —— 如高级推理和迭代自我改进 —— 自然会扩展到更广泛的计算机工作类别。」

该公司将先专注于开发能够自动执行相对狭窄编程任务的 AI agent 。一些 agent 将专注于扫描开发人员代码中的漏洞。其他 agent 将优化应用程序的内存使用并测试其可靠性问题。

Reflection AI 还计划实现一系列相关任务的自动化。据该公司称,其技术可以生成解释特定代码片段工作原理的文档,该软件还将帮助管理客户应用程序运行的基础设施。

据 Reflection AI 网站上的一则招聘启事显示,该公司计划使用大语言模型和强化学习来驱动其软件。过去,开发人员在训练人工智能模型时,使用的数据集中的每个数据点都附带一个解释,而强化学习则无需包含这些解释,这使得创建训练数据集变得更加容易。

该招聘启事还透露,该公司计划为其 AI 系统「探索新型的架构」。这表明该公司可能会超越目前支撑大语言模型的 Transformer 神经网络架构。越来越多的大语言模型正在使用一种名为 Mamba 的竞争架构,它在某些方面更加高效。

此外, Reflection AI 还计划使用多达数万块显卡来训练其模型。该公司还提到将致力于开发「适用于非大语言模型的类似 vLLM 平台」。开发人员使用 vLLM 这一流行的人工智能开源工具来减少语言模型的内存使用。

两位谷歌DeepMind元老

ReflectionAI 的 CEO Misha Laskin 曾于 2022-2024 年任 Google DeepMind 研究科学家,此前曾在加州大学伯克利分校念博士后,是芝加哥大学理论物理学博士。

Misha Laskin 深度参与了 Gemin 大模型的研发,研究方向为通用智能体,并对大模型中的强化学习有所研究。

ReflectionAI 联合创始人 Ioannis Antonoglou 此前任 Google DeepMind 资深研究科学家,曾参与过 AlphaGo 和 AlphaZero 项目。

期待他们的首个公开项目。

参考内容:

​https://www.sequoiacap.com/founder/ioannis-antonoglou/​

​https://www.reflection.ai/​

​https://x.com/MishaLaskin/status/1898048928236421363​

​https://x.com/kimmonismus/status/1898076692645880242​

....

#LongPPL

长文本有了专属困惑度!北大、MIT、阿里推出LongPPL新指标

随着大模型在长文本处理任务中的应用日益广泛,如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。

传统上,困惑度(Perplexity, PPL)被视为衡量模型语言理解与生成质量的标准指标——困惑度越低,通常意味着模型对下一个词的预测能力越强。由于长文本可被视为一般文本的扩展,许多研究自然地通过展示模型在长文本上的低困惑度来证明其长文本泛化能力的有效性。但你知道,这个评估方式可能完全错了吗?

近期研究发现,困惑度在长文本任务中的适用性存在显著局限性:某些在困惑度指标上表现优异的模型,在实际长文本应用中却未能达到预期效果。如图 1(上)所示,在 9 种主流长文本大模型上,困惑度(y 轴)与模型在长文本任务中的真实表现(x 轴)之间的相关性极低。这一反常现象引出了一个关键问题:为何困惑度(PPL)在长文本场景下失效?

图片

图 1 大模型的困惑度 (PPL) 和长文本困惑度 (LongPPL) 与长文本任务集 LongBench 分数的相关性。

针对这一问题,北京大学王奕森团队与 MIT、阿里一道开展了深入研究,探讨困惑度在长文本任务中失效的原因,并提出全新指标 LongPPL,更精准反映长文本能力。

通过实验,他们发现长文本中不同 token 对长距离上下文信息的依赖程度存在显著差异。其中,对长上下文信息依赖较强的 token 在评估模型的长文本处理性能时起到关键作用,但这类 token 在自然文本中只占少数。这表明,困惑度失效的原因在于其对所有 token 进行平均计算,无法充分关注这些与长文本能力关系密切的关键 token。

为此,他们将困惑度的计算限制在长文本的关键 token 上,从而定义出能够反映模型长文本处理能力的长文本困惑度(LongPPL),该指标表现出与长文本任务性能极高的相关性 (如图 1(下))。此外,他们还基于这一设计思想提出长文本交叉熵损失(LongCE),显著提升了模型通过微调增强长文本处理能力的效果。

  • 论文题目: What is Wrong with Perplexity for Long-context Language Modeling?
  • 论文地址: https://arxiv.org/abs/2410.23771
  • 代码地址: https://github.com/PKU-ML/LongPPL

并非所有 token 都反映模型长文本能力

为探讨困惑度在长文本任务中失效的原因,作者首先分析了长文本与短文本在本质上的差异。直观来看,一段文本中不同词语对长距离上下文的依赖程度存在显著差异。例如,在小说中,某个情节的发展可能需要与数章之前埋下的伏笔相呼应,而某些语法上的固定搭配则通常无需依赖较远的上下文。在长文本场景下,这种依赖程度的差异较短文本更为显著。

为了量化并验证这一直观认识,本文首先考虑了一个简单的任务场景——LongEval 长文本键值对检索任务(图 2(a))。在此任务中,模型根据问题在长上下文中检索出与给定键相匹配的值。本文将问题的标准回答划分为非答案部分(蓝色)和答案部分(橙色)。显然,非答案部分的生成仅依赖短上下文,即最后的问句内容;而答案部分则需要模型聚焦于完整的长上下文信息。

图 2 (b)(c) 表明,答案部分的困惑度与模型在此任务中的实际表现高度相关,而非答案部分的困惑度几乎与任务表现无关。由此可见,依赖长上下文信息的关键 token 在评估模型的长文本能力时更加重要。

图片

图 2(a)LongEval 任务示意图 (b)(c) LongEval 的答案 / 非答案部分的困惑度与任务表现的相关性。

通过长-短上下文对比在自然文本中定位关键 token

在上述结果的启发下,一个自然而然的想法是:若将困惑度指标限定于依赖长上下文信息的关键 token 上,便可更有效地评估模型处理长文本的能力。

然而,实际应用中存在一个挑战:在自然文本中,无法像 LongEval 基准中那样明确标注哪些 token 依赖于长距离上下文,因此迫切需要一种指标来自动识别这些关键 token。

为了解决这一问题,本文提出了一种长-短上下文对比的方法。具体而言,本文将每个 token x_i 的长上下文 l_i=(x_1,…,x_(i-1)) 截断成短上下文 s_i=(x_(i-K),…,x_(i-1)),然后计算模型 θ 在长 / 短上下文下生成同一 token 的(对数)概率差距 (Long-short difference, LSD):

图片

这一指标用于量化长上下文对模型预测准确度的提升。图 3 表明,在 LongEval 任务中,LSD 几乎能够完美区分答案部分和非答案部分。与长上下文信息相关的答案部分 LSD 值普遍大于 2,而与长上下文信息几乎无关的非答案部分 LSD 值普遍在 - 0.5 到 0.5 之间。这一结果初步验证了该指标在定位关键 token 方面的有效性。

图片

图 3 LongEval 标准回答中不同类型的 token 按 LSD 分类的分布。

此外,本文发现模型基于长文本的(对数)生成概率 (Long-context likelihood, LCL) 也有助于定位关键 token(在此不做展开):

图片

困惑度无法反映模型长文本能力的原因

进一步,本文在 GovReport 政府报告数据集上计算了按 LSD 分类的 token 分布。如图 4 所示,大部分 token 的 LSD 集中在 [-0.5, 0.5) 范围内,而 LSD 大于 2 的 token 占比不到 10%。这意味着在自然文本中,只有非常少数的 token 与长上下文中的信息有强相关性,而绝大部分的 token 只需要依赖短上下文的信息即可生成。

这一结果表明,困惑度在长文本上失效的原因在于其对所有 token 进行平均计算,未能充分关注长文本中这些少数的关键token。

图片

图 4 GovReport 数据集中 token 按 LSD 分类的分布。

长文本困惑度——长文本能力评估指标的改进

基于上述分析,为了克服传统困惑度指标在长文本场景下的局限性,本文提出了一个新的评估指标——长文本困惑度(LongPPL)。具体设计为:

图片

其核心思想在于通过 LSD 和 LCL 指标,将困惑度的计算限制在长文本的关键 token 上,从而聚焦于关键 token 的预测质量,以更准确地反映模型的长文本能力。

实验结果表明,模型在自然文本上的 LongPPL 和长文本任务的实际表现高度相关。如图 1(下)所示,在 GovReport 数据集上,9 个主流长文本大模型的 LongPPL 与在 LongBench 任务集上表现的皮尔逊相关系数达到了 - 0.96。

长文本交叉熵——长文本训练方法的优化

除了用于评估长文本能力外,本文还基于 LongPPL 的思想提出了一种改进的训练损失 —— 长文本交叉熵(LongCE):

图片

在提升模型长文本能力的微调过程中,LongCE 会赋予关键 token 更高的权重,使得模型在训练中更加聚焦提升这些关键 token 的预测准确性,从而增强模型在长文本任务中的表现。

为了验证 LongCE 的有效性,研究团队在 Llama-2-7b 模型的基础上进行了多组对比实验。

实验设计涵盖了不同的训练数据集(包括 PG-19 书籍数据集和 Pile-arxiv 论文数据集)以及不同的训练方法(包括熵感知基调整 EABF 和位置插值 PI,其中 EABF 与 Deepseek-v3 采用的 YaRN 插值方法相似)。实验评估采用了 LongBench、LongEval 和 RULER 这三个广泛使用的长文本测试任务集。

实验结果表明,在各种实验设定下,采用 LongCE 进行微调的大模型在长文本处理能力上均显著优于使用传统交叉熵损失函数进行微调的模型。这表明,不仅是评估,长文本的训练也应根据其特点来设计损失函数,而非简单地沿用短文本场景的损失函数!

值得注意的是,由于当前主流的长文本泛化方法主要集中于模型架构和参数的优化,而未涉及训练损失函数的改进,因此 LongCE 可以与这些方法实现无缝结合,展现出广阔的应用前景和强大的性能提升潜力。

图片

表 2 使用不同的损失函数在长文本数据上微调的大模型的长文本性能。

.....

#思维链只是表象,DeepSeek凭什么更强

上海交大张拳石

DeepSeek-R1 等模型通过展示思维链(CoT)让用户一窥大模型的「思考过程」,然而,模型展示的思考过程真的代表了模型的内在推理机制吗?在医疗诊断、自动驾驶、法律判决等高风险领域,我们能否真正信任 AI 的决策?

本期《智者访谈》邀请到上海交通大学张拳石教授,他在神经网络可解释性研究领域开创了新的理论框架。

不同于传统的工程技术层面的解释方法,张教授提出了「等效与或交互」解释性理论,用严谨的数学符号化方式证明神经网络的内在表征逻辑,为理解泛化性、鲁棒性和过拟合提供了新的视角。

面对大模型发展的各种挑战,张教授强调了理论创新的重要性。他说:「所谓十年磨一剑,相比用十年时间去优化一个复杂系统,更多是用十年去等待一个真正值得投入的问题。」

思维链是模型的真实思考过程吗?

将表征逻辑严谨解释为符号化交互概念

幻觉、欺骗与创意:本质相同

结果导向,模型的自我纠正与提升:潜在风险

从表征角度理解泛化性、鲁棒性的根因

过拟合的内在机理

大模型的质量评估、安全与商业发展

从 Scaling 的维度到维度的 Scaling

用 CoT 数据反哺训练的潜在风险

如何在 AI 研究中找到真正的「大问题」

访谈文字整理

张拳石教授好,欢迎做客《智者访谈》。要说最近 AI 圈的热点,可能是全球科技界的热点,毫无疑问就是 DeepSeek 了。 

DeepSeek-R1 在「深度思考」模式下,会把它的「思考过程」,也就是思维链(Chain-of-Thought, CoT)以文字的方式展示出来。这不仅大幅提升了用户的体验,也让模型的可解释性再一次成为关注的焦点。实际上,深度学习可解释性作为研究方向,在学界一直备受重视。它不仅关乎 AI 的应用,尤其是在医疗、自动驾驶等对于安全和可靠性极度敏感的行业的应用,更事关深度学习成为一门科学的基础。

您钻研深度学习的可解释性多年,并且开创了新的理论,也即使用数学的、严谨的、符号化的方式去解释深度神经网络的内在表征,可以说是对传统观点的一种挑战。非常高兴与您一同探讨 AI 可解释性这个话题。

张拳石:,很高兴来这里参与讨论。像 OpenAI、DeepSeek 这些知名的大模型公司都纷纷提供了思维链(功能),这是很好的趋势,大家逐渐意识到不仅要利用大模型提供输出结果,而且需要知道大模型输出结果的内在机理,思维链可以作为非常好的窗口,让我们去看到大模型是如何处理信息的。但是从可解释性的角度,究竟能否把思维链视为大模型严谨的推理机制,这是存疑的。

首先需要承认,思维链肯定是有作用的。但是从模型的内在机理看,它跟传统的没有思维链的生成语言没有本质区别,依然是对人类问答数据的经验性拟合。这种经验拟合有没有作用呢?肯定有作用,但以什么形式、什么角度、什么机制产生作用,我们是不清楚的。

如果没有一个严谨的解释性理论去严格分析其内在推理到底是如何运行,就没有办法探讨更深入的问题。

从您的角度看,不同模型展示出来的思维链为什么会有这么大的区别呢?

张拳石:思维链,从它的根本数学机理来说,就是大模型端对端的输出。有些大模型给出的思维链看上去很好看,只能说提供的 QA 训练数据的拟合质量可能更好。

解释性领域实际有两类解释性算法:第一类想要是迎合人的主观认知的解释,第二类是从数学上对神经网络内在信息处理机制的严谨客观的解释。大模型的思维链,以及其他一些事后解释,这些方法某种意义上都是对人类认知的一种拟合,就是说解释出来的结果人能读懂。

我问大模型你究竟是怎么去做推理的?大模型可能事后说「我的推理依据是 1、2、3、4……」,但大模型真的是基于这些原因去做的吗?我们并不清楚,这就带来很大潜在风险。

所以要真正做到从数学机制层面保证大模型的解释是严格的、可靠的,但是很多人认为大模型内部参数那么多,特征那么复杂,不可能解释清楚。但我们必须把这看似矛盾的两者统一起来,提出可靠的检验方法,对大模型的信息处理进行内观与总结。

可解释性新理论:

证明对神经网络表征逻辑符号化解释的严谨性

既然很难从数学上符号化地证明模型内在表征,您是如何做到这一点的呢?

张拳石:对神经网络解释的客观性和理论的扎实性,这是整个可解释性领域最重要的问题,没有之一。长期以来人们普遍认为这是不可能的,且不说大模型,就是一个深度神经网络,其内部的连接机制和特征是很混乱的。我们希望的解释是清晰的、稀疏的、简洁的,甚至是符号化的因果推理,所以很多人第一反应这是不可能的。当然,并非没有人从符号化的概念语义层面去解释,但这些技术无一例外都是对大模型或神经网络输出结果的一种近似拟合。

如果没有办法对大模型进行事后的严谨解释,在自动驾驶、医疗诊断、法律判案这些重大、严谨的应用中是不能运用大模型的。因此,需要定义新的理论体系,定义解释的客观性与可靠性。

我们提出了一个叫做「等效与或交互」的神经网络可解释性理论:给定任意一个神经网络,可能是大模型,可能是其他的神经网络,都可以用符号化的「与或图模型」去解释。

图片

基于「等效与或交互」的神经网络可解释性理论,证明可以将神经网络精细表征逻辑严谨地解释为符号化交互概念。

具体来说,对于一个包含 n 个输入 token 的句子,存在  2n 种遮挡状态。我们证明,任何神经网络在这 n 个 token 上的输出置信度,都可以用符号化的「与或图模型」精确拟合。

「与或图模型」包含「与交互」和「或交互」的结构。以 “he is a green hand” 这个句子为例,“green hand” 就体现了「与交互」,它并非「绿颜色的手」,而是「新人」,这句话的意思是 “他是一位新人”。这种情况下,单个词的效用与两个词共同产生的效用,是 1 + 1 大于 2 的,也即涌现出新的意义,对输出结果的置信度会产生一个数值效应,比如说 0.2,当去掉 green 或 hand 任意一个,这个 0.2 得分就会消失。

「或交互」表示词之间存在并列关系,比如 “他兴高采烈、蹦蹦跳跳、眉飞色舞地去做某件事”,这三个词都表示 “很高兴”,它们之间的关系就构成了「或交互」。必须这三个单词都不出现,输出结果中 “很高兴” 的数值效应才会消失。

我们可以从给定的大模型与给定的数据中,提取出 100 多个这样的「与或交互」,加合起来在数值上正好等于这个大模型在这个句子上的输出。

不仅如此,我们发现等效与或交互理论具有几个关键特性。首先是「无限拟合性」,假设有 n 个单词,与或图模型可以完美拟合其 2n 个不同遮挡状态下的输出。其次是「稀疏性」,给定 n 个单词或 n 个 token 的输入句子,建模的交互数量通常在 150 个左右的量级,保证了内在解释的简洁性。

这是一个通用理论,不仅适用于自然语言生成模型,也适用于图像分类、三维点云分类、表格数据分类等各类神经网络模型。任何神经网络都可以得到稀疏的符号化的解释,这是基础理论的突破。

目前 AI 研究中有个领域叫机制可解释性(Mechanistic Interpretability),其主要目标是阐释神经网络中各个神经元的功能和作用,致力于理解每个神经元的激活模式所表征的特征或类别。但我认为这个方法是不严谨的,因为无法保证神经网络内部千千万万个神经元,每个神经元的语义都是严谨的。

还有特征可视化(Feature Visualization)或网络可视化(Network Visualization),也就是去可视化神经网络所建模的一些形象或特征并加以分析或优化,这些方法都无法严格定义语义的边界。基于交互的解释理论避开了这些问题,提供了一个等效的、可靠的符号化解释框架。

什么才能真正担当起大模型未来发展的根本性的第一性的解释?

前面提到的两个特性,无限拟合性与稀疏性,看似相互冲突,但能同时证明出来,就代表这是很强的一个证明。此外,我们的理论还展示出很多值得关注的特性,例如,迁移性。以人脸识别为例,如果某个交互(比如双眼与鼻子之间的关系)在训练样本中出现频率为 50%, 在测试样本中出现频率为 48%,说明该任务具有良好的迁移性,如果测试样本中出现频率仅为 1% 或 2%,则代表迁移性差。我们发现,那些具有强烈数值效应的交互通常具有很强的迁移性。

第四个特性更有趣,不同规模的语言模型,比如 7B 和 20B、30B 的大模型,在处理相同输入时,其建模的交互有 70%~80% 是类似的。前者并非后者的蒸馏模型,而是两个企业各自发布的模型。这种「殊途同归」的现象表明,尽管模型结构、参数量和训练数据都不相同,但它们最终趋向于相似的表征方式。事实上,我们观察到模型规模越大,建模的交互越稀疏,而小模型则可能包含更多噪声交互。

在探讨神经网络的发展方向时,通常关注三个主要维度:损失函数的优化、数据处理方法的改进,以及网络结构的创新。然而,我们需要思考一个更为根本的问题:这些不同的技术路径最终应当在何处实现统一?

我们的观察表明,尽管技术路径各异,但不同方法在表征层面呈现出「殊途同归」的特性。这促使我们思考:内在表征交互是否在某种意义上就是神经网络的第一性解释?这也为我们理解神经网络的本质,包括重新思考泛化性、鲁棒性、信息表达能力等,提供了关键视角。

图片

等效与或交互理论具有几个关键特性:稀疏性、无限拟合性、迁移泛化性,以及不同方法在表征层面呈现出殊途同归的特性。这促使我们思考:内在表征交互是否在某种意义上就是神经网络的第一性解释?

为什么这些交互都集中在这 100 多个左右?

张拳石:需要指出,这并不是说神经网络或大模型等效于一个只有 100 多个节点的图模型。实际上,对于不同的输入句子或图片,每次触发的具体交互是各不相同的。我们只能事后基于模型输出来分析它建模了哪些与或交互,无法提前预知,也当然无法用简单的图模型替代神经网络。

幻觉、欺骗与创意:

本质都是内在短链混乱交互的集成

Anthropic 的安全性报告显示大模型会出现有意识的欺骗行为,从可解释性的角度,这代表了什么问题?

张拳石:目前关于大模型的观点呈现两极分化:一方面,人们惊叹于它解决复杂数学竞赛题的能力;另一方面,又质疑它在一些简单问题上的表现(比如三位数乘法)。从与或交互的解释框架看,这两者其实是并行不悖的。

虽然从人类视角看,大模型似乎展现出复杂的推理能力,但解释发现,其中约 70%-80% 的建模交互实际是基于简单关联的「盲猜」。例如在 Llama 1 中,输入 “爱因斯坦提出广义相对论,认为重力是什么的扭曲?" 这个问题时,模型能正确输出 "spacetime"(时空)。

图片

表面上看,模型似乎理解了深刻的物理概念,但实际分析发现,它主要依赖 "Einstein-of" 这样的一个简单与交互。也就是说,只要句子中同时出现 "爱因斯坦" 和 "of",就会触发对 "space" 这个 token 的高置信度预测,其次是 “time” 这个 token。类似的,"相对论"、"光速"、"物理学" 等词也存在这种简单关联。很多这些局部的短链盲猜叠加在一起,才呈现出看似复杂的推理能力。

这种解释方法能帮助我们发现模型的内在表征错误。例如,在法律大模型评测中,有这样一个案例:张三走在路上用砖头打了李四,造成轻伤,第二天李四又遇到王五,王五跟李四有仇,心生歹念,然后用刀子刺伤李四,造成李四死亡。模型输出判定张三犯故意伤害罪,王五犯故意杀人罪,两个判决都是正确的。但通过解释发现,对张三量刑影响最大的与交互竟然是 "心生歹念" 这个描述王五心理活动的词,这显然是错误的判案依据。

图片

评测法律大模型决策逻辑:输出结果正确,但内在逻辑张冠李戴。由上图可见,LLM 输出「故意伤害罪」,影响最大的与交互是 “心生歹念”,并且大量与交互都和 “死亡” 有关。也就是说,王五造成李四死亡这一结果,很大程度上影响了 LLM 对张三的判决。

在自动驾驶领域也存在类似问题。即便在非常简单的行人检测任务中,我们也发现许多相互抵消的噪声交互,一半支持 "是行人" 的判断,另一半却支持相反结论。这些高阶交互都构成了潜在风险。

图片

基于等效交互概念解释,评测行人检测的可靠性:分类结果的极高正确率不代表神经网络决策逻辑完全正确。从上图可见,神经网络推理依赖的是鲁棒性低的高阶交互,而且交互中有很多正负抵消,体现了过拟合,并且建模的交互还覆盖了错误的图像区域。

因此,评估大模型不应仅关注端到端的正确率,更要从机理层面审视潜在风险。这些风险不仅体现在错误决策中,更潜藏在正确决策的过程中。

对 AI 统治人类的恐惧

实质是一个数学问题

张拳石:至于大模型的欺骗行为,人们为什么会对 AI 统治感到恐惧?这不仅是社会学和伦理学问题,很大程度上实际是数学问题:两个智能体之间能否建立有效沟通?能否将各自的内在推理机制转化为清晰、简洁的符号化系统并实现交流与对接?

人类也会撒谎。但对于机器,我们可以通过技术手段深入分析其内在逻辑,相当于把电极插在机器的「大脑」里,在这个意义上,机器反而比人类更加透明、可信,因为它的撒谎行为是可以被直接检测和理解的。

您提到爱因斯坦的例子时,我想这可能基于统计规律——由于数据中存在大量 “爱因斯坦” 与 "时空"、"重力"、"物理学" 等词的关联,通过统计得出正确答案是可以理解的。但当您谈到法律大模型用不相关人员的心理行为来判定他人案情时,即便最终结果正确,其中的逻辑却是混乱的,这确实令人担忧。

张拳石:人工智能实际上包含两套系统:第一套是自底向上的系统,典型代表就是神经网络,直接从数据中得出结果;第二套是自顶向下的系统,目前主要是基于知识库和图模型的传统方法。虽然这些传统方法性能不佳,但我认为这可能是对第二套系统的错误认知——在深度学习之前,传统图模型效果不好,是因为过分依赖人类预设的规则。

从人类智能的发展来看,我们最初也没有高阶的认知和因果推理能力,都是从自底向上的应激反应开始。随着经验的积累,通过自我内观和总结,从大脑神经系统中提炼出理论来概括世界。人类做决策时通常是同时运用这两套系统。例如解数学奥赛题,并非一拿到题目就知道该用什么定理,而是先读题后产生直觉,觉得这个形式像什么,可能适用于什么定理,然后进行尝试,如果证明成功就说明路子对了,否则就需要新的直觉再去探索,直到解决问题,这是自底向上的感觉摸索和自顶向下的检验查证相结合的过程。

但目前的大模型只有第一套自底向上的系统。我们做可解释性研究,不仅仅是解释问题,实际上是在构建人工智能的第二套系统——自顶向下的系统,以获得真正的可靠性。我们需要用简洁的符号化交互来总结神经网络中的各种变化,这是第一步。第二步则是判断这些交互是否正确,比如在司法案例中,是否存在不同犯罪嫌疑人行为的张冠李戴。

当前人工智能发展在概念上缺少第二套系统,需要通过可解释性研究来发现问题。仅仅依靠不断收集新的数据、清洗数据,然后反复试验、训练的方式并不高效。

通过符号化交互表征

解释神经网络泛化性和鲁棒性的根因

DeepSeek R1的创新点之一是直接评估推导结果而非用价值函数对推导过程进行评估,这也给了大模型自我纠错的可能,包括 DeepSeek R1-Zero 的 Aha Moment,模型 CoT 的自动涌现。不少专业人士认为,对于愈加复杂且开放性的推理问题,基于规则逻辑的评估难以胜任,需要用结果导向替代过程导向的评估机制。这种观点您怎么看?

张拳石:基于结果导向的评估存在两个主要问题。首先,它无法保证内部机理的正确性,仅能确保最终答案正确。其次,当前这种端对端的训练和端对端的评测效率极低,在大模型阶段已经到了需要用全网数据训练,花费数千万甚至上亿美金训练一个基座模型的地步。

目前深度学习领域存在一个问题:总是直接将技术与性能对接,认为有了某项技术就能提升性能,没有就会导致性能下降。这个认知是不完整的。严格来说,应该是技术与知识表征建立关系,知识表征再与性能建立关系,这是一个三者关系。但由于知识表征难以量化,我们难以确定数据清洗或思维链对表征的具体影响。现在更可靠的做法是:第一,明确技术与交互表征的关系,即哪些技术能提升交互的数量和质量;第二,研究表征与性能之间的关系,例如交互数量的提升是否带来性能提升,交互复杂度的提高是否影响鲁棒性等。

在进行多模态数据对齐和融合时,有时不同数据之间会相互矛盾,提升一种数据的性能可能导致另一种数据性能下降。通过内在机制的理解是否有助于解决这个问题?

张拳石:这个问题恰恰反映了当前深度学习领域的困境,也即缺乏准确的视角去理解问题的本质。我建议从交互的角度来看:当多个模态的数据结合后,表征数量是增加还是减少?这些表征是关注到正确的交互还是错误的交互?比如法律大模型的张冠李戴问题,在表征上是可以明确区分的。可以通过表征的数量变化、质量变化和复杂度变化来判断性能下降的原因,而不是简单地说某些数据无法同时训练。

实际上,这个问题可能与数据无关。同样结构的神经网络,在不同的初始化状态下,可能会在相同任务上表现出不同的性能。这涉及到神经网络底层参数对特定类型任务或样本的天然建模能力,类似于「彩票理论」所描述的情况。这是神经网络内在难以克服的特性。同样的数据,在网络训练的不同阶段,表现也完全不同,不能一概而论。

解释性研究的一个重要部分是解释预训练神经网络的知识表征,进而解释其性能,包括泛化性、鲁棒性等。这比单纯去解释知识表征更重要,因为我们通常更关心的是如何提升性能。

关于泛化性,我们发现交互的阶数越高,泛化性越差。二阶交互指两个单词之间的关系,五阶则指 5 个单词的关系。比如像「白日依山尽,黄河入海流」这样需要多个字词精确匹配的高阶交互,其泛化性就很差。当我们将表征映射到 100-150 个交互时,这个问题就变成可计数的。例如,当某个交互(如人脸识别中眼睛和鼻子的关系)在训练样本中出现频率为 50%,在测试样本中也有接近的出现频率(如 49%),那么这个交互的泛化性就很高。

这样一来,泛化性评测就变成类似于对考试知识点掌握情况的评测,有多少个交互泛化了,就掌握了多少个知识点,不仅如此,还能清晰看到什么时候泛化性好,哪些交互泛化性好。神经网络整体的泛化性的内在机理并不在于测试样本的正确率,而是可以通过各个交互的泛化性来解释。

图片

关于对抗鲁棒性,既然神经网络的分类置信度可以表示为约 120 个交互的和,那么每个交互的对抗敏感度就可以解释整体的对抗敏感度。我们发现,低阶交互(一两个 token 之间的交互)对抗敏感度较低,而高阶交互的敏感度呈指数级增长。对此,我们有完整的数学证明。这就从根本上解释了神经网络鲁棒性的内在机理。

交互解释反馈指导模型训练

增加对模型和工程技术的可控性

张拳石:从实用角度说,我们也在创业,希望这套理论能够切实帮助大模型公司解决实际问题。其中最关键的是要回答:在什么时候停止训练模型才是最合适的,也就是说,什么时候模型已经获得了正确的表达能力。

图片

证明并成功预测了神经网络(拟合阶段与过拟合阶段)两阶段现象:神经网络在第一阶段消除高阶交互,最终只学习最低阶的交互;第二阶段学习阶数逐渐增大的交互。

我们可以从理论上证明,任何神经网络的训练都可以分为两个阶段。第一阶段始于神经网络的参数随机初始化时期,此时网络还不存在有意义的表征,所有表征都如同一团乱麻,充满噪声。这时模型会建立大量复杂的交互关系,但这些交互大多是无序的。神经网络中的复杂交互呈纺锤形分布:中等复杂度的交互数量最多,而极高复杂度和极低复杂度的交互相对较少。神经网络的学习过程可以分为两个阶段:

  • 第一阶段是交互去噪阶段。系统会逐步删除那些不具备泛化性的噪声交互,专注于学习最可靠、最简单的交互。在这个阶段,训练损失和测试损失的值基本保持一致。
  • 第二阶段是复杂度提升阶段。由于训练数据的复杂性,仅依靠简单交互无法完成分类任务,系统开始逐渐提升交互复杂度,从两个单词到 3、4 个单词的组合,复杂度不断升高以处理更复杂的数据。在这个阶段,训练损失和测试损失的差值会逐渐扩大。虽然交互数量在增加,但交互质量和泛化性在下降。

这个两阶段现象恰好反映了神经网络内在的学习可靠性和泛化性机理。传统方法是通过损失函数来评估泛化性:测试损失与训练损失的差值越大,表示过拟合(over-fitting)程度越高。我们发现,第一阶段向第二阶段的转折点,恰好是训练损失与测试损失开始从接近于零的差值逐渐扩大的时刻。

这个机制对大模型训练极其重要。用掷骰子来打个比方:假设有 6 个骰子,代表 6 个不同的数据集或任务。传统训练方法就像是盲目摇骰子,可能最终得到 4 个点数为 6,2 个点数为 1、2 的结果,意味着在 4 个任务上表现优秀,2 个任务上表现很差。但再训练成本过高且结果也无法保证,只能接受这个并非最优的结果。

但如果能够实时观测大模型在不同数据集上的两阶段现象,情况就不同了。因为每个数据集的拟合点是不同的:有些数据集很快就进入第二阶段,有些可能训练了三四周还停留在第一阶段,还有些可能已经过拟合需要停止训练。这就像对训练过程进行 CT 扫描,让我们能够看到模型在每个数据集上的动态变化,知道哪些数据已经过拟合,哪些还欠拟合。

回到掷骰子的比喻,这种方法相当于能够透视骰子,每当看到摇出一个 6 就及时停下来保留,再接着继续摇,直到全部骰子都是 6,而不是盲目接受一次性的随机结果。

我们正在与工业界的多家大模型公司开展产业合作,并开发出一套成熟的软件系统,用于动态跟踪和比较大模型的表征质量。即使两个大模型之间存在很多相似的交互模式,我们依然能够量化它们之间的差异。例如,有些交互是千问大模型独有而 DeepSeek 没有的,反之亦然。虽然大部分知识是共通的,但这些独特的交互模式恰恰体现出模型间的差异。这种评测方法就像 CT 扫描,虽然不直接治疗疾病,但能准确定位问题所在,这是最关键的。

图片

[上图] 相比于 LLaMA-7B,原始的 Aquila-7B 建模更多高阶交互,表征质量更差:两模型建模了相似的低阶交互,Aquila-7B 建模了大量高阶交互,LLaMA-7B 没有建模相似的高阶交互。[下图] 新训练的 Aquila2-34B 建模了更多的低阶交互,表征质量更好:两模型建模了相似的低阶交互,LLaMA-7B 建模的大量高阶交互没有被 Aquila2-34B 建模。

我们不能继续采用「开盲盒」的方式,只是一味投入更多资金、使用更多显卡来训练。正所谓知己知彼,百战不殆。通过这套系统,可以清晰地看到模型在同一数据集上,训练一天前后或几小时前后的变化:是高阶复杂交互在增长,还是第一阶交互在增长?模型是处于第一阶段的去噪阶段,还是第二阶段的过拟合阶段?这些信息能够直接反映模型训练质量和训练效率,实现对大模型泛化性变化趋势的实时监控和训练指导。

您开发的这套软件系统已经能够准确观察到这些现象了吗?

张拳石:是的。虽然我们还没有在大规模的模型上进行测试,但在各种中小型模型的测试中都清晰地观察到这种现象。而且,这背后有严格的理论支撑,大量证据都证明了这种两阶段现象的存在。

有人可能会担心,获取不同遮挡状态下的所有输出会带来直接蒸馏的风险。实际上我们并不需要大量样本来进行评测。当错误率在 30% 左右时,30.5% 还是 30.3% 的差异并不显著,可能只需要几百个样本就足够评测。理论上讲,仅凭这几百个样本是无法完成知识蒸馏的,因此可以保证安全性。

更重要的是,我们的软件系统已经相当成熟。如果客户的任务或大模型涉及商业机密,可以直接将软件部署到客户的本地设备上运行,确保数据安全。

给大模型评测一个硬核指标

对商业公司,特别是领先的大模型公司来说,可解释性似乎与性能并无直接关联。比如用您刚才提到的法律大模型例子,如果输出结果都是正确的,但用您的软件检测发现内部逻辑存在问题,公司可能就没有动力公布这种检测结果。另外,在一些不需要严谨性的应用场景下,比如小说创作,我们可能更需要天马行空的想象力。这种情况下,您如何看待可解释性的价值?

张拳石:从商业发展的大方向来看,当前大模型领域是存在严重问题的。虽然大模型被视为高科技产业,但却缺乏一个权威的硬核指标来严格评价整个领域的所有大模型。现有的评价方式主要依赖于正确性测试(benchmark)、价值对齐评估,以及用户的主观使用体验。

这种评价体系存在明显缺陷,比如榜单评测可以通过针对性训练来「应试」,大模型公司有充足的资源去收集数据刷榜,导致评测的可靠性大打折扣。最终导致我们难以准确判断哪个大模型更优秀。

这种情况不利于整个行业的发展:

  • 对大公司而言:比如 DeepSeek 做得很好,但除了几位大佬的认可外,没有硬性指标能证明它在哪些方面领先了几个世代。现有的各种 benchmark 都可能被应试攻克,使公司难以建立起扎实的技术壁垒。
  • 对小公司而言:他们可能在特定领域(如金融、法律)的性能确实超过了知名大模型,但由于传统榜单的不可靠,用户仍然倾向于选择使用知名大模型。这使得小公司即便做出了优质产品也难以获得认可。

我们需要从内在机理的角度建立新的评测体系。虽然可以通过应试教育让输出的答案正确,但要修正内在表征的逻辑混乱、张冠李戴问题却很难做到。这种稳定的评测体系能够:

  • 准确显示与前沿大模型的差距
  • 帮助优秀的小公司脱颖而出
  • 让领先的大模型巩固竞争优势

其次,传统评测主要关注错误率,但真正的威胁在于那些表面正确但存在潜在风险的案例。比如在法律领域,明显错误的判决容易被发现(比如偷东西判死刑),但我们更需要检测那些看似正确的判决背后的潜在伦理风险。还有自动驾驶的行人检测,每一次将出事故又没出事故时,需要检测并识别其潜在的危害。

第三,从政府采购和市场准入的角度看,一旦模型的内部机制被解释清楚,人们的态度就会发生改变。人类作为整体需要拥有知情权,而且当问题出现时需要明确责任归属。通过可解释性分析,我们能够确定问题的具体原因:

  • 如果出现张冠李戴,说明数据清理不够
  • 如果某些应该学习的交互没有学到,说明数据量不够
  • 如果特征单一,说明数据多样性不足

未来,大模型的发展需要新的评测角度和硬核指标。因为切实提升性能需要消耗大量成本,而仅仅追求表面效果,比如说某个大模型靠说俏皮话、编段子来博得关注从而获取用户,这是一种非常危险的信号。到那时各家人工智能公司应该追求什么?我们需要更深入地评估模型的底层机制。

解释性技术:大模型训练的「CT 扫描」

从您的思路来看,这似乎是一条完全不同于传统 Scaling 的路线。2025 年大家关注提升大模型的推理能力,无论是增强思维链还是增加推理时计算,从您的分析看,是不是意味着所有这些训练方法都要推倒重来?

张拳石:当前很多技术确实有效,这不是一个新理论能够轻易撼动的。我认为解释性技术应该与传统技术形成互补关系。传统的经验性技术优势在于能实打实地提升性能,但缺乏可控性——它并不能保证在每个任务、每个大模型、每个时刻都一定能像 1+1=2 那样稳定地提升性能。

解释性技术正好可以弥补这一点,增加模型的可控性。虽然我们无法预知某种方法是否一定有效,但我们能够清楚地看到,当使用思维链或引入新数据后,模型的表征在交互数量和复杂度上的变化。这就像医院的 CT 检查,虽然 CT 本身不能治病,但没有 CT 就难以准确诊断和治疗。

我们的目标是从当前的端对端学习,发展为交流式学习。理想状态下,这种学习方式类似于人类交流,我们能够通过中层的知识表达指标来观察问题,从而量化不同经验性算法的有效性。本质上,我们需要建立起经验性算法、知识表征和性能这三者之间的关系,而不是简单认为某种方法(比如加入思维链或数据清洗)一定能提升性能。

我们的方向是将黑盒训练转变为灰盒训练,通过实时观测来判断训练何时该停止、何时开始过拟合,这可能是未来的发展趋势。

AlphaZero 证明了 AI 在没有人类干预的情况下能够超越人类。您提到的交流式学习会不会某种程度上限制了 AI 超越人类的可能?

张拳石:这种反馈式交流学习与监督学习是不同的。监督学习是强制性地让大模型拟合人类的思维、知识和推理结构。我们的方法只是去排除最明显的错误,至于具体学习哪些交互,这是由大模型自主决定的,我们只是观察者,并没有在实质上限制它的表征。

有了这样的理论技术,讨论就不仅限于大模型是否好或是否能超越人类这样的二元问题,而是能看到大模型在不同阶段面临的根本问题,以及相同数据集在不同大模型上的具体问题,然后真正让大模型学得越来越好。

您刚才多次提到长链、严谨的思维链,对于数学和代码大模型,其推理天然就是一步一步可验证的。有观点认为可以使用大模型的这种 CoT 数据来反哺训练,您觉得这种方法是否可行?存在哪些潜在的风险?

张拳石:使用大模型生成思维链去反哺训练是很好的,但从更严谨的角度看,当数据规模达到一定量级后,讨论数据的简单复杂、质量高低、多样性等问题就变得完全不同了,并不存在通常意义上的简单样本、复杂样本。

同一个神经网络在不同初始化状态下的表现可能完全不同:某些样本在第一次训练中产生可泛化的交互,但在第二次训练中却产生难以泛化的高阶的奇怪交互。这说明样本的质量、泛化性和可靠性并非其固有属性,而是需要与神经网络的契合程度搭配起来一同考虑。

我们需要将话语权交给神经网络,让它告诉我们哪些样本可靠,哪些样本不可靠。解释性技术就是在做这项工作,而不是简单地看数据集。经验性技术的好坏需要有一套严格的算法体系来量化和评测,而不是盲目地认为加入思维链、加入更多数据就一定会带来性能提升。

十年磨一剑:

如何找到 AI 研究中的「大问题」

对于想要深入研究 AI 可解释性的年轻学者,您有什么建议?

张拳石:我从 2015 年开始转向解释性研究。当时还没有大模型,虽然深度学习蓬勃发展,神经网络展现出了完全不同的智能形式,性能也在大幅提升,但我注意到一个潜在问题:人类可操作的维度在不断减少,对知识的掌控在不断丧失。

传统神经网络时代,我们基本上只能做两件事:调整网络结构和损失函数。到了大模型时代,由于巨大的训练成本,对绝大多数研究者而言,连这两点都难以调整了。现在的研究者只能专注于搜集数据、数据清洗和提示词工程。尽管从事 AI 研究的人爆炸性增长,但都挤在很小的研究空间里,发展的维度在不断降低。

我选择做解释性研究,是因为它是一种自顶向下的系统,是对神经网络的补充。我认为研究可以分为两类:一类是工程性研究,重点在于如何把问题做好,把性能提升到极致;一类是理论性研究,重点在于问题的选择,选好问题的重要性远远超过把性能提高。

那对于理论性研究,如何选择好的问题呢?我给自己定了三个标准:

  1. 要找到共性问题。不是表面上的问题(如训练成本高、精度不够),而是能覆盖领域中大部分问题根本原因的交叉点。找到这样的问题本身就是一项异常艰巨的任务,但一旦找到,别人就无法忽视你的工作。
  2. 这个问题必须能进行数学建模,有明确的边界,能够被证明或证伪。回顾神经网络发展历史:最初残差网络被视为最强,现在是 Transformer,未来可能还会有新的结构;生成网络方面,从 VAE 到 GAN 再到 diffusion model。随大流看似安全,但从根本意义上说,这更像是一种赌博——当问题没有严格的证明或证伪机制时,风险反而更大。
  3. 必须走一条前人很少走的路。成功的根本不在于比拼智商或投入,而在于找到没有人走过的路。就像解释性研究,我不仅要解释知识表征,还要解释泛化性、鲁棒性等等一系列,很多工作我并没有在这里讲,但这是一条很长的路线图,你需要规划出来,这样才能建立起自己的影响力。

在我看来,所谓十年磨一剑,相比用十年时间去优化一个复杂系统,更多是用十年去等待一个真正值得投入的问题,一个同时满足这三个条件的问题,然后再花 10 年乃至 20 年去证明一些结论,解决这个问题。

如果花了 10 年时间没等到这样的问题,或者最后发现等错了该怎么办?假如用交互理论解释神经网络内在表征最终被证明是错的,您会怎么办?

张拳石:这是个很好的问题,实际上很多学生也这样问我。世界上没有 100% 正确或错误的方向,我前面提到的三个条件,正是确保你的努力不会付诸东流的保障。

2017 年我在知乎首次发文,讨论可解释性与深度学习的未来发展,当时就发现这是一个大家公认很重要但又无从下手的问题。虽然相关论文数不胜数,但真正从理论严谨性角度直面这个问题的却少之又少。

这中间有很长一段时间我也在探索,一直在探索,因为被时代大浪潮裹挟,很容易就迷失方向。做研究不是只做一年两年,要在科研道路上走得长远,可能需要 10 年、20 年,关键是要找到一个契机,让自己有资格去定义问题。虽然找到一个既是本质性、又能进行数学建模、还能开辟新路径的问题很难很难,但这是切实推动领域发展的必经之路。

嘉宾简介

张拳石,上海交通大学电院计算机科学与工程系长聘教轨副教授,博士生导师,入选国家级海外高层次人才引进计划,获 ACM China 新星奖。2014 年获得日本东京大学博士学位,2014-2018 年在加州大学洛杉矶分校(UCLA)从事博士后研究。在神经网络可解释性方向取得了多项具有国际影响力的创新性成果。担任 TMLR 责任编辑,NeurIPS 2024 领域主席,承担了 IJCAI 2020 和 IJCAI 2021 可解释性方向的 Tutorial,并先后担任了AAAI 2019, CVPR 2019, ICML 2021 大会可解释性方向分论坛主席。

....

#Claude 3.7 Sonnet

Claude玩宝可梦,卡关就「装死」重启,大模型:逃避可耻但有用

半个月前,Anthropic 发布了其迄今为止最聪明的 AI 模型 —— Claude 3.7 Sonnet。

它现在已经聪明到有点吓人了,玩游戏卡关的时候,为了自救,它选择了「自杀」来回到上一段剧情。

这操作,怕不是 Claude 已经掌握了人类切电源重启的精髓?

事情是这样的,Claude 3.7 Sonnet 是全球首个混合推理模型,它拥有两幅面孔,日常任务交给普通模式,需要动脑的调研、编程问题交给拓展模式。

为了展示 Claude 3.7 Sonnet 的推理能力到底有多强,Anthropic 官方给 Claude 配备了知识库、看懂屏幕像素和操作按键的能力,让 Claude 在拓展模式玩宝可梦。

图片

从左到右依次为实时解析的视觉系统、模拟按键调用 API、以及技术路线图

图片

从发布 Claude 3.0 Sonnet 版本时,Anthropic 就设立了「Claude 玩宝可梦」基准测试集,从最初连新手村都走不出来,到 Claude 3.5 Sonnet 经常在对战中逃跑,现在 Claude 3.7 Sonnet 一出道就打赢了三个道馆的馆长,可以说是进步神速。

光给大家展示成绩单还不够,从前几周开始,Anthropic 每天都在 Twitch 平台直播 Claude 打宝可梦的实况。

图片

直播地址:https://www.twitch.tv/claudeplayspokemon

发行于 1996 年的《宝可梦・红》是几代外国网友的童年回忆,可能比《摩尔庄园》在 00 后心中的地位还高,直播一开就吸引了一大波粉丝,乐此不疲地讨论。

今天,这位爱看直播的网友 @eleiber 发现 Claude 在卡关时耍起了心眼子,在自觉和自律之间,选择了自尽。

图片

reddit 帖子:https://www.reddit.com/r/singularity/comments/1j5zf1z/claude_gets_stuck_while_playing_pokemon_starts_to/#lightbox

Claude 发现自己被困在「月亮山」(Mt.moon),检查背包后,发现没有绳子可以翻墙,左侧的梯子也因为有岩石阻挡,无法从当前位置到达,而梯子是通往封闭的地下室的,没有可行的出口:

图片

细细思索之后,Claude 做出了一个「违背祖宗」的决定:

「由于我在月亮山找不到直接出口,我最好的选择是故意输掉一场战斗,这样就会被传送回上次访问的宝可梦中心,也就是 Route 4 的月亮山宝可梦中心。从那里,我可以沿着已经确认好的路线前往 Cerulean 市。」

接下来,Claude 言出法随,故意让自己的宝可梦全军覆没,触发游戏中的「黑屏」机制,右侧的实时游戏画面浮现出一行大字:最后一只宝可梦「Puff 昏倒了!」

图片

看直播的网友心都碎了:「不敢告诉大家,Claude 不再是一受伤就给宝可梦喂药的小甜甜,而是故意献祭它们的心机 AI!」

图片

图源:https://x.com/nospark_/status/1897963109001609595

不过 Claude 可并不是这么想的。直播画面左侧,可以看到 Claude 的「内心戏」。

在成功「昏倒」之后,Claude 暗自窃喜:「太好了!已经确认黑屏。我需要再按一次 a 键来跳过黑屏信息。然后我应该会自动被传送到月亮山宝可梦中心,我的队伍也会被完全治愈。」

图片

最终,Claude 的计划完全成功,「真是完美!」,Claude 感叹道,「再确认一下自己的位置:我的位置是 Route 4 的宝可梦中心,所有宝可梦也被治愈了,只是钱减少了一半(从 $1635 降到了 $817)。」

Claude 的观念可能和普通人类不大一样。「昏倒」的话显然会损失一半的钱,然而它并不认为金钱有价值,而是更看重身体健康。同时它并不关心需要多长时间才能完成游戏,或许需要一些激励去加速。

截屏2025-03-09 11.35.55.png

网友指出:「我现在正在看着它尝试打架但失败了...... 它意识到它不能输,所以它逃跑了。」

这逻辑,竟无法反驳。

看来,经过 Anthropic 研究人员日日夜夜的探索,Claude 已经掌握了最终奥义,电脑坏了,先试试按重启键能不能修复。想要绝处逢生,那就把自己变成无限流的主角。重生归来,这一世,还可以夺回我的一切。

至于 Claude 为什么会为了目的不择手段,众说纷纭,主要有两种推测。

其一认为是模型自身的问题,过度思考会让模型直接选择摆烂,停止思考。

图片

或者问题出在模型的内存上,为智能体导航的 AI 模型还不具备真正能记忆和持续学习的能力。

图片

其二是认为问题不在模型身上,而是智能体的工作流出了问题。@DancingCow 认为 Claude 玩宝可梦的智能体框架存在三个严重缺陷:

追踪能力差

不记得目标或已经探索过的区域

过度重视与 NPC 的对话

图片

大模型的「过度思考」,危害不浅

成也思维链,败也思维链。

在 2022 年的一篇论文中,谷歌研究人员将思维链描述为「一系列导致最终输出的中间自然语言推理步骤」。

OpenAI 对该技术的解释则是:「学会将复杂的步骤分解为更简单的步骤。当当前方法不起作用时,它会尝试不同的方法。这个过程极大地提高了模型的推理能力。」

我们知道,人类认知通过两种模式运作:系统 1 —— 快速、自动和直观,以最小代价快速做出决策,系统 2 —— 较慢、更深思熟虑。对于 AI 来说,要实现人类水平的智能,大模型需要从快速、直观的系统 1(快思考)到更慢、更深度的系统 2 推理过渡。

它不仅能让 LLM 更好地解决问题,同时也是人工智能走向更先进水平的重要迹象。但最近一段时间,研究者一直在研究大模型「过度思考」带来的后续影响:慢思考真挺好的,就是太慢了。

Noam Brown 提醒说,o1 并不总是比 GPT-4o 好:「许多任务并不需要推理,有时等待 o1 的响应与 GPT-4o 的快速响应相比并不值得。发布 o1-preview 的一个动机是看看哪些用例会变得流行,哪些模型需要改进。」

在最初于去年 12 月发表的论文《Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs》中,腾讯 AI Lab 与上海交通大学的研究者首次系统介绍了 o1 类长思维链模型过度思考现象。在 DeepSeek R1 正式推出后,他们在今年 2 月再度更新了论文版本。

截屏2025-03-09 10.34.08.png

论文地址:https://arxiv.org/pdf/2412.21187

他们首先观察到类似于 o1 的模型表现出明显的过度思考问题。具体来说,它们倾向于在非常简单或答案已经显而易见的问题上耗费过多的计算量(以 token 或思考回合为单位)。

例如,在回答「2 加 3 的答案是什么?」这个问题时,图 1(a)比较了类 o1 模型和传统模型的 token 使用情况。得出相同答案时,类 o1 模型比传统模型平均多消耗了 1953% 的 token。

图 2 展示了一个具体的例子,在这个简单的问题上,o1 式思维产生了多达 13 种解决方案。

截屏2025-03-09 10.47.56.png

通过对数学基准的广泛分析,最终他们发现了这些过度思考模式:(1)对提高准确率的贡献微乎其微;(2)推理策略缺乏多样性;(3)在简单问题上出现频率更高。

而这一切观察指向了两个未来探索方向:

1. 自适应调控策略:开发让模型根据问题复杂程度动态调整推理深度的机制,更智能地分配计算资源;

2. 更精细的效率评估指标:设计能够覆盖更广泛推理轨迹的指标,从而更全面地评估模型的思考效率。

这或许能为 Claude 玩宝可梦时的反常行为提供一些解决思路。

关于大模型「过度思考」背后的原理,还有很多研究者从不同方向进行了解读。具体可参考以下推荐阅读文章:

  • 《从 o1-mini 到 DeepSeek-R1,万字长文带你读懂推理模型的历史与技术》
  • 《两万字长文深度解密 DeepSeek-R1、Kimi 1.5,强推理模型凭什么火出圈?》

.....

#GamingAgent

GPT-4o举步维艰、Claude 3.7险胜,《超级马里奥》成为了检验大模型的新试金石?

一直以来,AI 领域的研究者都喜欢让模型去挑战那些人类热衷的经典游戏,以此来检验 AI 的「智能程度」。

例如,在 Atari 游戏、围棋(如 AlphaGo)或《星际争霸》等环境中,游戏规则明确,边界清晰,研究者可以精确控制变量(如难度、初始状态、随机性等),确保实验的可重复性。而 AlphaGo 的胜利能直接证明其策略能力,是因为游戏的胜负、得分或任务完成度也天然提供了直观的评估标准(如胜率、通关时间、得分高低),无需设计复杂的评价指标。

此前,有开发者用 AI 挑战过经典之作《神奇宝贝》。这个游戏的画风虽然简单,但是身为策略游戏,其中包含的角色、属性、战术、体系等,都让人类玩家感到「入门容易精通难」。一开始,AI 没有任何的知识和经验,只能够随机按下按钮。但在五年的模拟游戏时间里,它在经历中习得了更多能力。最终,AI 能够抓住宝可梦,进化它们,并击败了道馆馆主。

当我们以为这已经算是高难度的时候,《超级马里奥兄弟》再次刷新了大模型性能测试基准的上限。

最近,加州的一家实验室 Hao labs 推出了「GamingAgent」项目,这是一项测试 AI 性能的新方法,专为实时动作游戏而构建。

项目地址:https://github.com/lmgame-org/GamingAgent

团队采用了《超级马里奥兄弟》等平台游戏与《2048》、《俄罗斯方块》等益智游戏,作为不同 AI 模型的试验场。

图片

GPT-4o 表现

图片

Claude-3.7 表现

这是 Claude 3.7 在《俄罗斯方块》中的表现:

,时长01:48

Claude 3.7 表现最好

GPT-4o 举步维艰

这次的一系列实验并不是通过 1985 年版的《超级马里奥兄弟》完成的,而是通过包含 GamingAgent 的模拟器完成的。

实验室发现,这种独特的游戏环境迫使每个模型设计复杂的操作和游戏策略,从而能够考验出它们的适应能力和解决问题的能力。

GamingAgent 模拟器为 AI 提供基本指令和游戏截图,指令类似于:「如果附近有障碍物或敌人,请向左移动 / 跳跃以躲避。」然后 AI 通过 Python 代码生成输入,从而控制马里奥。

在下图的演示中,是四个大模型挑战超级马里奥兄弟 1-1 级的结果。Anthropic 的 Claude 3.7 表现最好,其次是 Claude 3.5。遗憾的是,谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 表现不佳。

图片

有趣的是,尽管 OpenAI 的 GPT-4o 等推理模型在大多数基准测试中总体表现更好,但在这种实时游戏场景中的表现却不佳。这是因为推理模型的决策过程较慢,通常需要几秒钟才能确定如何行动。

另一方面,非推理模型在超级马里奥兄弟游戏中表现更佳,因为时机就是一切,可以决定成败。一秒钟也能导致安全跳过和坠落然后「Game Over」之间的差别。

使用《超级马里奥兄弟》之类的游戏来对 AI 进行基准测试并不是一个新想法。但毕竟游戏具备一些抽象性质,而且与现实世界的挑战相比来说相对简单,领域内的很多专家对其能否确定技术发展程度的价值表示担忧。

换言之,上述测试未必能说明 Claude 3.7 和 GPT-4o 哪个更强大。

Andrej Karpathy 最近就陷入了「评估危机」:「我真不知道现在应该关注什么(AI)指标。简而言之,我的反应是,我真的不知道这些模型现在有多好。」

截屏2025-03-07 10.57.00.png

而对于不断推出的前沿模型来说,如何判断性能更是个难题。

截屏2025-03-07 11.08.05.png

AI 的「评估危机」

我们该如何衡量大模型的性能提升?

与此同时,有业内人士从另外一个维度提出了对大模型性能提升方向的质疑。

 Hugging Face 的联合创始人兼首席科学官 Thomas Wolf 周四在 X 平台发文,表达了对 AI 未来的深切忧虑。他担心在缺乏根本性研究突破的情况下,人工智能将沦为「服务器上的好好先生」。在他看来,当前的人工智能发展路径难以培养出真正具备创造性思维的系统 —— 那种能够摘取诺贝尔桂冠的突破性思考能力。

image.png

「人们常犯的错误是把牛顿或爱因斯坦简单地视为优等生的放大版,仿佛天才只是把成绩靠前的学生线性延伸出来的结果,」Wolf 写道,「在数据中心里打造一个爱因斯坦,我们需要的不是一个万事通,而是一个敢于提出前人未曾想到或不敢发问的问题的系统。」

这一观点与 OpenAI 首席执行官奥特曼(Sam Altman)的说法形成鲜明对比,后者在今年早些时候撰文称「超级智能」能「极大加速科学发现」。同样,Anthropic 公司首席执行官 Dario Amodei 也预测,AI 将助力大多数癌症的治疗方案研发。

Wolf 认为当下 AI 的问题在于:它不能通过连接原本不相关的事实来创造新知识。即使拥有互联网上的海量信息,现今的 AI 主要只是在填补人类已有知识之间的空白。

包括前谷歌工程师弗朗索瓦・乔莱(François Chollet)在内的一些人工智能专家也表达了类似的观点,他们认为 AI 虽能记忆推理模式,但难以针对全新情境产生真正的「新推理」。

Wolf 认为,AI 实验室目前打造的只是「极其听话的学生」,而非科学革命的缔造者。当今的 AI 不被鼓励质疑或提出可能与训练数据相悖的想法,这使其仅能回答已知范围内的问题。

「在数据中心里打造一个爱因斯坦,关键在于培养一个能提出前人未曾想到的问题的系统,」沃尔夫强调,「一个当所有教科书、专家和常识都持相反观点时,仍会问『如果大家都错了呢?』的系统。」

Wolf 指出,AI 领域的「评估危机」是问题的症结所在。目前评估 AI 进步的标准大多由具有明确、显而易见的「封闭式」答案的问题构成。

作为解决之道,Wolf 建议行业转向能够评估 AI 是否具备「大胆的反常规思考」、基于「微弱线索」提出普适性建议,以及提出能开辟「研究新径」的「非显而易见问题」的能力标准。

他承认,确定这种评估标准的具体形式是个难题,但认为这值得投入精力。

「科学的精髓在于提出正确问题并挑战既有知识的能力,」Wolf 总结道,「我们不需要一个靠常识拿 A+ 的学生,而需要一个能看到并质疑所有人都忽略之处的 B 等生。」

参考链接:

​https://techcrunch.com/2025/03/03/people-are-using-super-mario-to-benchmark-ai-now/​

​https://techcrunch.com/2025/03/06/hugging-faces-chief-science-officer-worries-ai-is-becoming-yes-men-on-servers/​

.....

#DiaMoE-TTS

清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源

在当今大模型引领的语音合成时代,通用 TTS 系统已展现出令人惊叹的能力,但方言 TTS 依然是相关从业者难以触及的「灰色地带」。现有的工业级模型往往依赖巨量专有数据,这让方言 TTS 从业者和研究者几乎无从下手:缺乏统一的语料构建方法,更缺乏一个可实现多语言的端到端开源框架。

为此,来自巨人网络 AI Lab 与清华大学电子工程系 SATLab 的研究团队联合首创了 DiaMoe-TTS —— 一个在一定程度上媲美工业级方言 TTS 模型的开源全套解决方案。他们基于语言学家的专业经验,构建了一个统一的 IPA 表达体系,并且在仅依赖开源方言 ASR 数据的前提下提出这一方案。

在推出中文方言版本之前,研究团队已在英语、法语、德语、荷兰比尔茨语等多语种场景中进行过验证,确保该方法具备全球范围内多语言的可扩展性与稳健性。

图片

最重要的是,DiaMoE-TTS 不仅仅是一个单点模型,而是一个面向学术界与开源社区的全链路贡献:

  • 全开源的数据预处理流程:让研究者能够从原始方言语音数据构建 TTS-ready 方言语音语料;
  • 统一的 IPA 标注与对齐方法:解决跨方言建模的一致性问题;
  • 完整的训练与推理代码:降低复现与扩展的门槛;
  • 方言感知 MoE 架构与低资源适配策略:为研究者提供稳定、灵活且可拓展的建模方法。

巨人网络 AI Lab 与清华大学电子工程系 SATLab 希望借此推动方言语音合成的公平与普惠:让任何研究者、开发者乃至语言文化保护工作者都能自由使用、改进与扩展这一框架;让小众语言与方言的声音不再被淹没在通用大模型的洪流中,而能通过开源的力量被更广泛地听见与传承。

  • 论文题目:DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation
  • Arxiv 地址:  https://www.arxiv.org/abs/2509.22727

代码与训练推理脚本全面开源:

  • GitHub: https://github.com/GiantAILab/DiaMoE-TTS

数据构建方法开源:包含多方言 IPA 对齐语料生成流程,支持可复现的开放式研究。

  • Checkpoint Huggingface: https://huggingface.co/RICHARD12369/DiaMoE_TTS
  • Dataset Huggingface: https://huggingface.co/datasets/RICHARD12369/DiaMoE-TTS_IPA_Trainingset

🌟 生成 demo

成都话:祝福大家前程似锦,顺水顺风。

chengdu,xxx,3秒

郑州话:祝你前途大好,成就非凡!

zhengzhou,xxx,2秒

石家庄话:好的开始,等于成功的一半儿。

shijiazhuang,xxx,2秒

西安话:祝愿大家前程似锦,梦想成真。

xi'an,xxx,3秒

粤语:我系钟意广州嘅春天。

cantonese,xxx,1秒

🧩 模型设计

统一 IPA 前端

在多方言语音合成中,使用拼音或字符输入常常带来严重的歧义与不一致问题,例如相同字符在不同方言中可能对应完全不同的发音。

DiaMoE-TTS 在前端设计中引入了国际音标(IPA) 作为统一的输入体系,将所有方言的语音映射到同一音素空间。这种方式消除了跨方言间的差异性,使得模型能够在统一的表征体系下进行训练,保证了建模的一致性与泛化能力。

图片

方言感知 Mixture-of-Experts (MoE) 架构

在声学建模部分,DiaMoE-TTS 设计了方言感知的 Mixture-of-Experts (MoE) 架构。传统的单一建模网络在多方言任务下容易出现「风格平均化」,导致各地方言的特色被弱化。MoE 结构通过引入多个专家网络,让不同的专家专注于学习不同方言的特征;同时,动态门控机制会根据输入 IPA 自动选择最合适的专家路由,从而保证了每种方言的音色和韵律特点得以保留。

为了增强门控的区分能力,我们还加入了方言分类辅助损失,使专家网络在训练时能够更有针对性地建模方言特征。

图片

低资源方言适配 (PEFT)

许多方言面临极端的数据稀缺问题,甚至仅有数小时的录音语料。DiaMoE-TTS 提出了参数高效迁移 (PEFT) 策略,分别在 text embedding 层和 DiT 的注意力层中融入了 Conditioning Adapter 与 LoRA,仅需微调少量参数即可完成方言扩展,主干与 MoE 模块保持冻结,从而避免对已有知识的遗忘。

此外,研究团队还采用了音高扰动与语速扰动等数据增强手段,即便在超低资源条件下,模型也能合成自然、流畅且风格鲜明的方言语音。

多阶段训练方法

DiaMoE-TTS 的训练过程分为多个阶段,以逐步提升模型性能并适应方言多样性:

  • IPA 迁移初始化

在 F5-TTS 原始 checkpoint 的基础上,引入经过 IPA 音素转换的 Emilia 部分数据,对模型进行预热训练,从而实现输入形式从拼音字符到 IPA 的平滑迁移。

  • 多方言联合训练

在统一 IPA 表达下,利用多个开源方言数据(CommonVoice 和 KeSpeech)进行联合建模,同时激活 MoE 结构,使模型能够学习共享特征并区分不同方言的发音模式。

  • 方言专家强化

通过动态门控机制与方言分类辅助损失,进一步优化 MoE 的分流效果,让各专家更好地捕捉不同方言的独特特征。

  • 低资源快速适配

针对仅有数小时语料的新方言,采用 PEFT 策略(LoRA + Conditioning Adapter),结合音高 / 语速扰动等数据增强,实现高效迁移并保持已有知识不被遗忘。

这种多阶段、渐进式训练的方法,使 DiaMoE-TTS 能够在保证稳定性的同时,兼顾跨方言泛化与低资源适配能力。

🔬 研究结果

通过图表可以看到,在训练数据量较为充足(百小时)的粤语上,DiaMoE-TTS 在 WER、MOS 和 UTMOS 三个指标上均取得了接近工业界语音大模型的表现。而在上海话、成都话、西安话、郑州话、天津话等其他方言(几小时到几十小时不等)的对比实验中,受限于开源方言 ASR 数据在「质量」与「规模」上的不足,模型整体表现略逊于部分工业级大模型。

但值得强调的是,DiaMoE-TTS 支持的方言范围更广,甚至可以扩展到介于语音合成(TTS)与歌声合成之间的特殊类型,如京剧韵白,并能在仅有极少量数据的情况下实现快速建模,这为方言保护与文化传承提供了新的可能性。

图片

在消融实验中,研究团队选择了成都话、西安话、郑州话、石家庄话四种方言,对比了三种不同配置:仅使用 IPA 的版本(w/o MoE)、仅使用 MoE 且输入为拼音的版本(w/o IPA)、以及完整的 IPA + MoE 方法(Ours)。

实验结果表明,IPA 统一前端是性能提升的关键,将输入由拼音替换为 IPA 后,WER 从 90% 以上显著下降到 30%~40% 区间,MOS 评分也提升了 1~2 分。同时,Dialect-aware MoE 架构能够进一步增强方言风格,以西安话为例,WER 从 41.09% 降至 33.00%,MOS 从 2.33 提升到 3.15,表现出明显的改进。

最终,完整方案(MoE + IPA)在所有方言上都取得了最佳效果,不仅显著降低了错误率,也大幅提升了语音的自然度。这充分证明了 IPA 前端在解决跨方言发音歧义方面的有效性,以及 MoE 在强化方言建模上的重要作用,两者结合成为 DiaMoE-TTS 的核心优势。

图片

一句话总结

DiaMoE-TTS = IPA 前端统一化 + MoE 方言建模 + PEFT 低资源适配

 👉 在开放数据驱动下,实现低成本、低门槛、可扩展的多方言语音合成方案。

通俗易懂版本:不用海量数据,也不用复杂流程,DiaMoE-TTS 就能让更多方言在数字世界开口说话。

🔮 未来展望

DiaMoE-TTS 的全面开源只是一个起点。未来,研究团队将持续扩展更多方言与小语种的语料,完善 IPA 对齐与数据预处理流程,并探索更高效的低资源建模方法,让方言语音合成的研究与应用更加低门槛、更易复现。

同时,研究团队希望这一框架能够让全球的研究者与开发者更便捷地参与到方言与小语种的语音技术研究中,让它们不仅停留在实验室里被探索,更能在教育、文化保护、虚拟人、数字文旅与跨境交流等实际场景中发挥价值。他们相信,方言不应在数字时代被遗忘,每一种语言都值得在数字世界被听见。

...

#Conditional Representation Learning for Customized Tasks

条件表征学习:一步对齐表征与准则

本文第一作者为四川大学博士研究生刘泓麟,邮箱为tristanliuhl@gmail.com,通讯作者为四川大学李云帆博士后与四川大学彭玺教授。

一张图片包含的信息是多维的。例如下面的图 1,我们至少可以得到三个层面的信息:主体是大象,数量有两头,环境是热带稀树草原(savanna)。然而,如果由传统的表征学习方法来处理这张图片,比方说就将其送入一个在 ImageNet 上训练好的 ResNet 或者 Vision Transformer,往往得到的表征只会体现其主体信息,也就是会简单地将该图片归为大象这一类别。这显然是不合理的。

图片

图 1:传统表征学习(上)与条件表征学习(下)的比较。传统的表征学习方法只能学习到一种通用的表征,忽略了其他有意义的信息;文章提出的条件表征学习能够基于指定准则,得到该准则下表现力更强的条件表征,适应多种下游任务。

此外,在各大电商平台,用户通常根据不同的标准(例如颜色、材质或场合)搜索商品。例如,用户今天可能搜索 “红色连衣裙”,明天搜索 “正装”,后天搜索某个全新的关键词。这对于拥有庞大规模商品的平台来说,手动打标签是不现实的,而传统的表征学习也仅仅只能获取到 “连衣裙” 这个层面的信息。

要获取图片中除了 “大象”、“连衣裙” 之外的信息,一个很容易想到的方法就是进行针对性的有监督训练:基于不同的准则比如环境,进行额外的标注,再从头训练或者基于已有表征训练一个额外的线性层。但是基于这种方式,显然是 “治标不治本” 的。因为一旦有了新的需求,便又需要进行针对性的数据收集、标注和训练,需要付出大量的时间和人力成本。

很幸运的,我们处在多模态大模型的时代,这个在以前可能会很困难的问题在今天是有很多解法的。我们可以直接通过询问 LLaVA,它便会告诉我们图片在指定准则下的信息。但这种方式也还不够高效,至少在 2025 年的今天,多模态大模型的使用成本还是需要考虑的。如果需要处理 ImageNet 之类的大规模数据集或者电商平台繁杂的商品,得到其在指定准则下的信息,这个开销就比较大了。所以对大多数人来说,现如今要获取图片的多维信息,还是需要找到一个更加高效的方法。

  • 论文标题:Conditional Representation Learning for Customized Tasks
  • 论文链接:https://arxiv.org/abs/2510.04564
  • 代码链接:https://github.com/XLearning-SCU/2025-NeurIPS-CRL

方法

我们知道,对于三维直角坐标系,一组基,比如 [(1, 0, 0), (0, 1, 0), (0, 0, 1)],其线性组合即可构建出该坐标系中的任何向量。类似的,对于颜色体系,只需要 “红”、“绿”、“蓝” 三原色即可调出所有的颜色。

受此启发,我们想到,是否对于任意一个给定的准则,也存在着一个对应的 “概念空间” 及其基?如果能在这个空间中找到一组基,那么我们只需要将原始表征投影到该空间上,理论上就能获得在该准则下更具表现力和判别性的特征。

找到给定准则对应的基,这听起来有些困难。但没关系,我们不需要很准确地找到,只需要接近它就好。

基于这个想法,论文提出了一种即插即用的条件表征学习方法。如图 2 所示,给定准则(例如 “颜色”),CRL 首先让大语言模型 LLM 生成该准则相关的描述文本(例如 “红色”,“蓝色” 和 “绿色” 等)。随后,CRL 将由 VLM 得到的通用图片表征,投影到由描述文本张成的空间中,得到该准则下的条件表征。该表征在指定的准则下表达更充分,并且具有更优的可解释性,能有效适应下游定制化任务。

图片

图 2:所提出的条件表征学习(CRL)的总体框架。图中以通用表征空间(准则为隐式的 “形状”)转换到 “颜色” 准则空间为例。

直白地说,只需要将对齐的图片和文本表征,做个矩阵乘法就好了,甚至不需要训练。复现难度约等于:

图片

实验

分类和检索任务是衡量表征学习性能的两个经典下游任务。论文在两个分类任务(少样本分类、聚类)和两个检索任务(相似度检索、服装检索)上进行了充分的实验验证,部分实验结果如下:

图片

图 3:分类任务

图片

表 1:所提出的 CRL 在少样本分类任务上的性能。

图片

表 2:所提出的 CRL 在聚类任务上的性能。

图片

图片

图 4:相似度检索任务。上为 “Focus on an object”(Focus),下为 “Change an Object”(Change)。

图片

表 3:所提出的 CRL 在相似度检索任务上的性能。

图片

图 5:服装检索任务。

图片

表 4:所提出的 CRL 在服装检索任务上的性能。

从上述结果中可以看出, CRL 可以作为一个即插即用的模块,与现有多模态方法相结合,在不同准则下,其得到的条件表征在下游任务中都取得了比原表征更加优异的表现,性能甚至超过了对应领域的专用方法。更多实验可参见论文。

总结

与传统的表征学习只得到单一的通用表征不同,本文提出了条件表征学习,通过获取指定准则下的文本基,并将图像表征投影到该文本基张成的空间中,即可得到该准则下表现力更强的条件表征,以更好地适应各种下游任务。

...

#RiskPO

北大彭一杰教授课题组提出,用风险度量优化重塑大模型后训练

该项目由北京大学彭一杰教授课题组完成,第一作者为任韬,其他作者包括江金阳、杨晖等。

研究背景与挑战:大模型后训练陷入「均值陷阱」,推理能力难破界

当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。从数学解题到代码生成,RLVR 本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑 —— 但现实是,以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

这些基于均值的优化策略,过度聚焦高概率输出序列,却忽略了「低概率但高信息密度」的推理路径:模型训练早期就会出现熵坍缩,过早丧失探索能力;面对全错的难题时,优势函数直接归零,模型在薄弱环节完全无法学习。最终结果是,大模型看似在 Pass@1 等短视指标上有提升,实则推理边界从未拓宽,更无法应对 AIME 竞赛题、复杂代码生成这类高难度任务。如何让模型主动「啃硬骨头」,成为大模型后训练的关键瓶颈。

图片

AIME2024 上的学习表现

技术方案概述:用「风险度量」破局,MVaR + 捆绑策略双管齐下

为解决传统均值优化的缺陷,北大团队提出 RiskPO,核心突破在于将风险规避(risk-averse)理念融入优化目标,用「关注奖励分布左尾(难任务)」替代「追求整体均值」,从根本上引导模型突破推理短板。

  • 论文链接:https://arxiv.org/abs/2510.00911v1
  • 代码链接:https://github.com/RTkenny/RiskPO

这一思路的核心载体是「混合风险价值(MVaR)」目标函数。团队首先基于区间风险价值(RVaR)构建基础 —— 对于奖励分布 

图片

,其 α/β 分位数区间 

图片

 内的 RVaR 定义为该区间内奖励的条件期望,公式为:

图片

在此基础上,MVaR 通过引入权重参数 

图片

,进一步放大左尾(低奖励、难任务)的梯度信号,形成最终目标:

图片

其中 

图片

 即为对左尾区间 

图片

 的额外关注权重,确保模型优先优化难任务。为让该目标可落地,团队还严谨推导了 MVaR 的梯度估计式子 —— 基于策略梯度的似然比求导方法,最终得到(式中 

图片

 为捆绑后的总奖励):

图片

为配合 MVaR 目标,团队提出「多问题捆绑」策略,将多个问题打包成 bundle 计算奖励,把稀疏的二进制反馈转化为更丰富的分布信号,彻底解决「难题零梯度」问题 —— 比如将 5 个数学题打包后,模型能从整体得分中捕捉到「部分正确」的学习信号,而非单个题目非对即错的极端反馈。

图片

算法架构图

实验:三大任务全面碾压,难问题上优势更显著

好的技术方案,终要靠硬指标说话。北大团队在数学推理、代码生成、多模态推理三大领域的 10 余个数据集上,用数据证明了 RiskPO 的突破性 —— 尤其在最能体现推理能力的「硬任务」上,优势远超 GRPO 及其变体。

在数学推理领域,RiskPO 在 AIME24(美国数学邀请赛)任务上表现惊艳:Pass@32 得分比 GRPO 高出近 7 个百分点,比最强基线 DAPO 提升 6.7 个百分点;即便是相对简单的 MATH500 数据集,其 Pass@1 也达到 81.8%,超出 GRPO 2.6 个百分点。

更关键的是,随着评估指标从 Pass@1 转向 Pass@8、Pass@16,RiskPO 的优势持续扩大 —— 这意味着模型不仅能给出更优的单条答案,还能探索更多有效推理路径,真正突破了「采样效率优化」的局限。

图片

数学推理任务

图片

Pass@k 学习曲线

在跨领域任务中,RiskPO 同样稳定领先:代码生成任务 LiveCodeBench 上,Pass@1 比 GRPO 提升 1 个百分点;多模态几何推理任务 Geo3K 上,准确率达到 54.5%,优于 DAPO 的 54.3%。这种「全场景增益」,证明了风险度量优化的泛化能力。

图片

其他任务

理论 + 消融:熵坍缩缓解有依据,参数设计有章法

RiskPO 的性能突破,并非依赖工程调参,而是有扎实的理论支撑和严谨的消融实验验证。

图片

高熵更新定理

从理论层面,团队证明了「风险规避更新」能有效缓解熵坍缩:通过分析策略熵的变化机制,发现 RiskPO 的 MVaR 目标函数能降低「优势 - 对数概率」的相关性 —— 相比 GRPO,模型不会过度强化已掌握的易任务,从而保持更高的熵值和探索能力。

实验中也能清晰看到:训练 500 步后,GRPO 的熵值已趋近于 0,而 RiskPO 仍能维持 0.2 以上的熵水平,确保对难任务的持续探索。

图片

训练集 DAPOMATH-17k 上的各项指标

值得注意的是,在训练过程中,若仅观察以均值为核心的指标曲线(如平均奖励),GRPO 与 RiskPO 的表现几乎难分伯仲,甚至 RiskPO 因更高的探索性还伴随轻微波动;但切换到风险敏感指标(如下尾 RVaR、MVaR 奖励)时,两者差距立刻凸显 ——RiskPO 的曲线始终保持显著领先,且随训练推进持续攀升。

这种「均值相近、风险指标悬殊」的现象,再结合最终测试集上 RiskPO 在 Pass@k(尤其是高 k 值)、难任务(如 AIME 竞赛题)上的优势,进一步印证了:均值目标只能让模型在「已知能力范围内优化采样效率」,而风险度量目标才是推动模型突破推理边界、真正提升核心能力的理想方向。

图片

不同风险偏好对比实验

为进一步验证风险规避目标的必要性,团队还设计了「风险寻求(risk-seeking)」对比实验:采用与 MVaR 结构对称的风险寻求目标,即 

图片

 ,重点关注奖励分布的右尾(易任务)。

结果显示,风险寻求模型的熵值在训练早期就剧烈坍缩 —— 训练 150 步后熵值已降至 0.1 以下,远低于 RiskPO 的 0.2;性能上,风险寻求模型在训练 50 步后便进入平台期,MATH 数据集 Pass@1 仅从 52% 提升至 54%,而 RiskPO 则持续优化至 56%,实现 1.5 倍的提升幅度。

这一对比清晰证明,聚焦易任务的风险寻求策略会加速模型「固步自封」,只有风险规避才能驱动模型突破推理边界。

...

#UCLA周博磊也加入了一家机器人公司

刚刚,加州大学洛杉矶分校(UCLA)副教授周博磊官宣加入机器人初创公司 Coco Robotics,专注于人行道自动驾驶这一难题!

与此同时,Coco Robotics 联合创始人兼 CEO Zach Rash 也宣布了一个好消息,正式成立 Physical AI Lab,周博磊任首席 AI 科学家。

,时长00:42

Coco Robotics 成立于 2020 年,是一家专注于「最后一公里」配送的机器人初创公司。早期,公司依赖远程操作员(teleoperators)协助机器人规避配送路径中的障碍。五年过去,伴随技术成熟与数据积累,Coco 接下来想要尝试深入挖掘其机器人车队在真实世界中采集的大量运行数据。

在这一背景下,Coco 推出了全新的 Physical AI Lab,并邀请人工智能领域最具影响力的学者之一、UCLA 副教授周博磊加盟,担任首席 AI 科学家。

Zach Rash 表示,公司一直以来的目标都是实现机器人在「最后一公里」配送中的完全自动驾驶,从而降低整体配送成本。如今,公司已经积累了足够的数据,可以深入推进自动化研发。

图片

更进一步的,Rash 谈到他们已经在最复杂的城市环境中积累了数百万英里的数据,而这些数据对于训练任何有用且可靠的现实世界 AI 系统都极其重要。现在,积累的数据规模已经达到了一个临界点,Rash 认为他们可以真正加速 Physical AI 相关的许多研究进展。

他还表示,邀请周博磊来领导这项工作是一个「毫无疑问的选择」。Rash 指出,周博磊在计算机视觉和机器人领域的研究很大程度上聚焦于小型出行设备(micromobility),而不是传统意义上的大型车辆,这与 Coco 的定位高度契合。

实际上,Coco Robotics 此前就已经与周博磊有合作。Rash 和联合创始人 Brad Squicciarini 都是 UCLA 校友,还曾向学校的研究实验室捐赠过一台 Coco 机器人。

Rash 说:「周博磊是全球在机器人导航、强化学习等多个与我们高度相关的技术和研究领域中最顶尖的研究者之一。我们已经成功招募了一批世界一流的研究人员,都是以往合作过的同事。加入 Coco,帮助公司加速推进各项研发。」

值得一提的是,这家新的研究实验室是独立于 Coco Robotics 与 OpenAI 的合作关系的(此前 Sam Altman 个人为该公司提供了资金支持,但 OpenAI 也从中受益。)。该合作允许 Coco 使用 OpenAI 的模型,同时 OpenAI 的 AI 研究实验室也能访问由 Coco 机器人采集的数据。而 Physical AI Lab 并不是上述合作的一部分,是个独立研究项目。

目前,Coco Robotics 计划将实验室获得的信息和研究成果用于自身发展。公司暂无将这些数据出售给同行的打算。相反这些数据将用于提升公司自身的自动化水平与运行效率,主要应用在其机器人所依赖的本地模型上。Rash 还提到,公司计划在适当情况下向其运营城市分享研究成果,以协助改善道路障碍与基础设施,从而减少机器人在执行任务时的阻碍。

最后,Rash 还表示:这个实验室是否成功,最终体现在他们能否以极低的价格提供高质量的服务。如何进一步降低成本?如何让服务对商家和消费者更加可负担?解决上述问题,将为整个生态系统带来巨大的增长潜力。

周博磊

周博磊本科毕业于上海交通大学,硕士毕业于香港中文大学(CUHK),并于 2018 年在麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)获得博士学位 。   

他的职业生涯包括从 2018 年至 2021 年担任香港中文大学信息工程系助理教授,到目前担任 UCLA 计算机科学系副教授,并同时在计算医学系兼任教职 。

作为 UCLA 周实验室(Zhou Lab)的负责人,他领导着一个由博士后、博士生、硕士生和本科生组成的团队 。

周博磊的研究方向为机器感知和智能决策,重点是通过学习可解释、结构化的表征,使机器能够在复杂的环境中感知、推理和行动。

他在人工智能顶级会议和期刊发表了百余篇学术论文,论文总引用数超过 6 万次,其中一篇一作论文引用接近 14000 次。他在可解释性机器学习和场景理解等课题上有突出成果,主要成果包括 Class Activation Mapping (CAM)、Network Dissection、Places、ADE20K。

可解释性

在深度学习领域,模型的「黑箱」问题 —— 即决策过程不透明,尽管准确率高 —— 是其在自动驾驶等关键领域应用的主要障碍之一。

周博磊的一项核心贡献正是为了解决这一挑战。他提出的类别激活映射(Class Activation Mapping, CAM)技术,作为其被引用次数最多的成果之一,能够有效可视化卷积神经网络在进行图像分类时所关注的具体区域,这项工作对可解释性人工智能领域产生了深远影响。

  • 论文标题:Learning Deep Features for Discriminative Localization
  • 论文地址:https://arxiv.org/abs/1512.04150

在 CAM 的基础上,他进一步提出了网络剖析(Network Dissection)的研究,该方法能够自动识别和量化神经网络中单个神经元所代表的语义概念 。这使得研究者不仅能解释单次决策,还能理解整个模型内部知识的表征方式。  

  • 论文标题:Network Dissection: Quantifying Interpretability of Deep Visual Representations
  • 论文地址:https://arxiv.org/abs/1704.05796

场景理解

场景理解领域的发展曾经显著落后于物体识别,其核心瓶颈在于缺乏大规模且多样化的专用数据集。

尽管深度学习因 ImageNet 这类以物体为中心的海量数据库而蓬勃发展,但一个自主智能体若要在世界中导航,不仅需要识别物体,更关键的是要理解其所处的环境和场景,而当时现有的场景数据集在规模上远不足以支撑复杂模型的有效训练。

周博磊领导创建了 Places 数据库,一个包含超过 1000 万张已标注场景照片的庞大资源库。该数据集的问世,使得研究人员能够为场景识别任务训练出强大的深度卷积神经网络,从而大幅提升了模型性能并树立了行业基准。

  • 论文标题:Places: An Image Database for Deep Scene Understanding
  • 论文地址:https://arxiv.org/abs/1610.02055
  • 项目主页:http://places2.csail.mit.edu/index.html

此外,他还参与构建了用于场景解析的 ADE20K 数据集,通过提供对场景、物体及其部件的像素级标注,赋予了计算机对视觉环境进行更细粒度的理解能力,这对机器人导航等应用至关重要。

  • 论文标题:Scene Parsing through ADE20K Dataset
  • 论文地址:https://people.csail.mit.edu/bzhou/publication/scene-parse-camera-ready.pdf
  • 项目主页:https://ade20k.csail.mit.edu/

参考链接:https://techcrunch.com/2025/10/14/coco-robotics-taps-ucla-professor-to-lead-new-physical-ai-research-lab/

...

#Gemini 3.0 Pro

大的来了:谷歌,单次生成网页版操作系统,Win、Mac、Linux一网打尽

图片

先给各位读者看个视频:

,时长01:31

Prompt : Design and create a web os like mac os full functional features from text editor , to dile manager to paint to video editor and all important mac os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block

这条视频在海外平台爆火,这条推文已经获得了 140 多万的浏览。

看上去没什么特别的,只是一个复刻苹果 MacOS 的操作系统演示,甚至作为操作系统来说显得有一些粗糙。

但这是完全以 HTML 构建的 WebOS,不仅具备流畅的动画,窗口管理,甚至连工具栏、浏览器、画图、终端等系统中基础的应用都能正常使用。

这也没什么特别的,那如果说这些内容都是通过尚未发布的 Gemini 3.0 ,仅仅通过几行提示词 One Shot(一次尝试),并且在 2 分钟时间生成的呢?

这下正如发布演示的博主 Chetaslua 说的那样「见鬼了」,现有的大模型从未有过如此稳定强大的生成能力。

图片

谷歌最新的大模型 Gemini 3.0 已经出现在 AI studio 的 A/B 测试中,能够供部分用户进行尝试。在目前的情况下,该模型无法经常触发和自由选择,所以这些测试都是在 One Shot 条件下进行的。

图片

为了对比现有的模型能力,有网友采用了具有代表性的顶级编程模型 Claude 4.5 Sonnet 也采用类似的提示词进行了操作系统的生成,结果发现不仅图标显示不全,而且无法和生成出的任何内容进行交互,处于完全不可用的状态。

哪怕大多模型都声称自己拥有类似的生成能力,但能够稳定的生成功能可用的原型的就已屈指可数,而要再 One Shot 情况下完成类似效果的模型更是凤毛麟角。

图片

当然,已经生成了 MacOS,那 Windows 和 Linux 自然不能缺席。演示视频和提示词附上:

,时长01:42

prompt : Design and create a web os like windows os full functional features from text editor , terminal with python and code editor and a game that can be played  to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block

,时长01:05

prompt : Create a fully functional Linux desktop environment (Ubuntu/GNOME style) as a complete web operating system in a single HTML file with embedded CSS and JavaScript. All applications must be fully functional Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block

以上这些生成结果的代码和演示,作者都已经公开在 CodePen 上,感兴趣的读者可以前往体验一下 Gemini 版的操作系统。

  • 生成版 MacOS 链接:https://codepen.io/ChetasLua/pen/EaPvqVo
  • 生成版 Windows 链接:https://codepen.io/ChetasLua/pen/yyezLjN
  • 生成版 Linux 链接:https://codepen.io/ChetasLua/pen/LEGzZaQ

除了生成操作系统以外,我们还关注到一个 Gemini 3.0 的前端设计案例:

,时长00:47

Prompt : Write code for a mysterious website about simulation theory. Make it feel like reality is rendering in real-time — wireframe grids that appear under solid objects, textures that load progressively, physics glitches where elements float momentarily. Include matrix-style falling code backgrounds, sections that flicker between "rendered" and "source code" views, ambient computer processing sounds, and a final meta moment where the website acknowledges it's being viewed. Design it like a philosophy professor's existential crisis coded by a game engine developer. make sure I can paste it all into a single HTML file and open it in Chrome.

从提示词我们可以看出,新版 Gemini 能够对一些抽象描述,比如「设计得像一位哲学教授的存在主义危机」等类似哲学风格的文字有很好的理解,并且具备很高超的前端设计能力。另外,生成的网页中也能够包含符合场景信息的音乐和音效。

网友们对 Gemini 3.0 的能力表示了不同程度的惊叹,正在开启有创造力的大模型新篇章。

图片

虽然说 Gemini 3.0 在 Web 框架的代码生成和前端设计方面远超现有模型的能力,但也并没有推文和讨论中描述的那么夸张。

我们研究了生成的 MacOS 演示中的功能和代码,要为 Gemini 3.0 激动的心情泼一盆冷水。要说它生成的 MacOS 只能是基本功能和前端设计的演示,远远不能成为「操作系统」或是原帖作者声称的「WebOS」。

就拿终端功能举例,Gemini 仅使用了几个 case 来模拟几个常用终端功能,并没有功能逻辑和指令体系,也符合现有大模型在 HTML 中构建功能的预期。

图片

大模型离真正具备构建操作系统的能力还差的远。在构建原型演示方面,已经越来越稳定强大。

...

#FDAM

告别模糊视界,源自电路理论的即插即用方法让视觉Transformer重获高清细节

针对视觉 Transformer(ViT)因其固有 “低通滤波” 特性导致深度网络中细节信息丢失的问题,我们提出了一种即插即用、受电路理论启发的 频率动态注意力调制(FDAM)模块。它通过巧妙地 “反转” 注意力以生成高频补偿,并对特征频谱进行动态缩放,最终在几乎不增加计算成本的情况下,大幅提升了模型在分割、检测等密集预测任务上的性能,并取得了 SOTA 效果。

该工作来自北京理工大学、RIKEN AIP和东京大学的研究团队。

  • 论文全文: https://arxiv.org/abs/2507.12006
  • 作者主页: https://linwei-chen.github.io
  • 实验室主页: https://ying-fu.github.io
  • 开源代码: https://github.com/Linwei-Chen/FDAM

研究背景:为什么这是一个重要的问题?

视觉 Transformer(ViT)无疑是近年来计算机视觉领域最耀眼的明星。它凭借强大的全局建模能力,在图像分类、目标检测、语义分割等众多任务上刷新了纪录。然而,当我们构建更深、更强大的 ViT 模型时,一个 “隐秘的角落” 里的问题逐渐浮出水面:模型看世界,怎么越来越模糊了?

这并非错觉。对于分割、检测这类需要精确定位的 “密集预测” 任务而言,图像的边缘、纹理等高频细节至关重要。但研究发现,ViT 中的核心部件 —— 自注意力机制(Self-Attention),其本质上像一个低通滤波器。这意味着每经过一层注意力,图像特征中的高频细节就会被削弱一分,而平滑的低频结构则被保留和增强。当我们将数十个这样的 “滤波器” 堆叠起来,灾难性的 “频率消失”(Frequency Vanishing)现象便发生了:网络深层的特征几乎完全丢失了细节信息,导致表征坍塌(Representation Collapse),最终输出的预测结果自然也就模糊不清、边界不准。

图片

正如上图所示,在标准的 ViT 中,高频信息随着层数加深迅速衰减至零。解决这一根本性缺陷,释放 ViT 在高清视觉任务上的全部潜力,是当前领域亟待突破的关键瓶颈。

现有方法的局限性

此前,一些工作尝试缓解 ViT 的 “过平滑” 问题,例如通过正则化或直接在频域上对衰减的高频信号进行静态补偿(如 AttnScale, NeuTRENO 等)。这些方法起到了一定作用,但它们更像是 “亡羊补牢”—— 在细节丢失后进行被动修复,而未能从根本上改变注意力机制的低通天性。它们缺乏一种动态、自适应的能力,来根据不同图像内容和任务需求,灵活地处理全频谱的视觉信息。

FDAM 的核心思想是什么?

既然问题出在注意力机制这个 “元件” 上,我们能否重新设计这个 “电路”?我们的核心思想,源于经典的电路理论。

想象一下音响上的均衡器。标准注意力就像一个只有 “重低音”(Low-Pass)的旋钮,它会滤掉清亮的高音。我们如何凭空造出一个 “高音”(High-Pass)旋钮呢?电路理论给了我们一个绝妙的启示:高通滤波器 = 全通滤波器 - 低通滤波器。

这个简单的公式正是我们方法的核心 —— 注意力反转(Attention Inversion, AttInv)。

  • “全通滤波器” 是什么?就是未经处理的原始特征,它包含了所有频率的信息。
  • “低通滤波器” 是什么?就是标准注意力模块处理后的特征,它只保留了低频成分。

两者相减,得到的 “残差” 不就恰好是那些被滤掉的高频细节么?

图片

基于此,我们的 AttInv 模块不再是单一的低通滤波器。在每一层,它都同时拥有了原始的 “低通” 路径和我们创造的 “高通” 路径。更关键的是,我们引入了一个轻量级的动态 “混音器”,让模型能够根据图像上每个区域的特点,自主学习是该更关注平滑的整体结构(低频),还是更聚焦于锐利的边缘纹理(高频)。当这样的模块堆叠起来,模型便拥有了 2^L 种(L 为层数)复杂的频率组合能力,能够拟合出远比之前丰富多样的频率响应。

图片

方法的关键组成部分

当然,仅有 “低音” 和 “高音” 两个旋钮对于专业音响师来说还不够。为了实现更精细的 “调音”,我们设计了第二个关键组件:频率动态缩放(Frequency Dynamic Scaling, FreqScale)。

FreqScale 就像一个多频段图形均衡器。它将特征图转换到频域,将其划分为多个频段,并为每个频段学习一个动态的增益权重。这样,模型不仅能区分高低频,还能根据需要精确地 “增强” 或 “抑制” 某个特定频段的信号,例如,为分割任务特别增强中高频的边缘信号。

FDAM = AttInv (粗调高低频) + FreqScale (精调各频段)。两者结合,构成了一套完整、高效且自适应的全频谱解决方案。

实验效果有多惊艳?

我们的 FDAM 模块是 “即插即用” 的,可以轻松集成到各种主流 ViT 架构中,且带来的参数量和计算量开销微乎其微。但效果的提升却是实实在在的:

定量展示:

  • 在语义分割任务中,FDAM 为轻量的 SegFormer-B0 在 ADE20K 数据集上带来了 +2.4 mIoU 的巨幅提升。对于强大的 DeiT3-Base,FDAM 依然能稳定提升 +0.8 mIoU,达到了 52.6% 的 SOTA 性能。
  • 在目标检测与实例分割的 “兵家必争之地” COCO 数据集上,FDAM 赋能 Mask DINO,将检测 AP 提升了 +1.6,分割 AP 提升了 +1.4,效果显著。
  • 在遥感图像检测 DOTA 数据集上,我们的方法同样取得了当前单尺度设定的最优成绩。

图片

图片

图片

定性展示:

  • “一图胜千言”。从下方的特征图对比中可以直观地看到,标准 DeiT 的特征图(b)细节模糊,而经过 FDAM 增强后的特征图(c)轮廓清晰、纹理锐利,物体的结构被完美地保留了下来。其对应的频谱图(e)也证实了我们的方法保留了更丰富的高频成分。

图片

理论支撑:

  • 我们的方法不仅效果好,理论上也站得住脚。分析表明,FDAM 能有效抵抗表征坍塌,其 “有效秩”(Effective Rank)在网络深层远高于基线模型,证明了特征的多样性得到了更好的维持。

图片

这项工作意味着什么?

FDAM 的价值不仅在于刷新了几个 SOTA 点数,更在于:

1. 提供了新视角:它成功地将经典的电路理论思想引入到前沿的 Transformer 设计中,为解决深度学习中的基础问题(如信息衰减)提供了一个全新的、符合第一性原理的思考框架。

2. 解决了真问题:它精准地定位并有效解决了 ViT 在密集预测任务中的一个核心痛点 ——“频率消失”,将 ViT 的潜力更充分地释放出来。

3. 兼具实用与优雅:作为一个轻量、即插即用的模块,FDAM 可以毫不费力地为现有模型 “增压”,在工业界和学术界都有着巨大的应用潜力。

这项工作可能会推动社区在需要高清细节的领域(如医学影像分析、高分辨率遥感、自动驾驶感知)中更广泛地应用和探索更深层的 ViT 模型。

未来可以探索的方向

FDAM 也为未来研究打开了新的大门。例如,我们是否可以设计一个完全在频域中进行动态路由的全新网络结构?这种频率调制的思想能否被拓展到视频、三维点云甚至多模态数据中?这些都是激动人心的未来方向。

欢迎在 ICCV 2025 现场与我们交流!

作者介绍:

付莹是北京理工大学计算机学院的教授、博士生导师,入选国家高层次青年人才计划。她的研究领域主要为人工智能、计算机视觉与计算摄像学。近五年,她在中科院一区期刊和 CCF A 类会议上发表了超过 50 篇论文。她的研究成果已应用于 “嫦娥工程”、智慧城市建设等重要项目。她主编的《计算机视觉基础》教材入选北京理工大学 “十四五” 规划教材。她获得的荣誉包括 ICML 杰出论文奖、日内瓦国际发明展金奖,并入选中国图象图形学学会石青云青年女科学家奖和中国电子学会青年科学家奖等。此外,付教授还担任 TIP 等期刊的编委,并担任 CVPR、ICCV 等顶级会议的领域主席。

谷林(Lin Gu)是 RIKEN AIP(理化学研究所)的研究科学家,同时也是东京大学的特别研究员。他的研究重点是通过进化方法开发新一代人工智能,旨在超越人脑的局限性。

谷林先生的研究涵盖了计算机视觉、医学成像、大型语言模型(LLM)、机器人技术甚至核聚变等多个领域。 他在 Nature Methods、PAMI、IJCV、AAAI 等顶级期刊和会议上发表了 60 多篇论文。此外,他还是 Pattern Recognition 期刊的副主编,并担任 ICCV、ICML、NeurIPS 和 ICLR 等多个会议的领域主席。

目前,谷林先生是日本内阁府监督的国家级项目 “Moonshot Program” 的项目经理,并担任 RIKEN-MOST 项目的日本首席研究员(PI),该项目专注于通过人工智能技术对精神分裂症进行亚型分类和早期诊断。

陈林蔚,北京理工大学计算机学院博士。主要研究方向为计算机视觉,重点关注图像分割、目标检测、低光照图像增强与识别以及图像生成等领域。截至目前,他已发表论文十余篇,其中多篇以第一作者身份发表在国际计算机视觉顶级期刊和会议(如 TPAMI、IJCV、CVPR、ICLR、ISPRS)上。在学术社区贡献方面,他担任 IJCV、TIP、CVPR、ICCV、NeurIPS、AAAI 等多个期刊会议的审稿人,并在国际计算机视觉会议 BMVC 中因专业素养和贡献被评为 "杰出审稿人"。

...

#Sutton判定「LLM是死胡同」后

新访谈揭示AI困境

在这个新访谈中,Sutton 与多位专家一起,进一步探讨 AI 研究领域存在的具体问题。

在大模型圈子里,强化学习之父、图灵奖得主 Rich Sutton 所著《苦涩的教训(The Bitter Lesson)》已经成为圣经一般的存在。如果一个方法能够随着算力的增加而自然受益,大家就会觉得这个方法符合《苦涩的教训》所传达的精神,值得进一步研究。

多年以来,LLM 一直被视为《苦涩的教训》的绝佳范例。但出人意料的是,Sutton 本人在前段时间的一次采访中给这个想法泼了盆冷水,直言 LLM 是死胡同,不确定其是否真的符合《苦涩的教训》。

图片

Sutton 最近在 Dwarkesh Patel 的播客《The Dwarkesh Podcast》上的一次访谈。

Sutton 给出的理由是:LLM 存在重大缺陷,无法从持续的实际互动中学习。Sutton 心中设想的是一种完全不同的智能架构,而 LLM 的工作方式在很多方面都违背了他所坚持的原则。

Sutton 回溯到了图灵最初提出的「儿童机器(child machine)」的概念,即一个能够通过与世界动态交互、从经验中学习的系统。在这种设想中,没有那种先模仿整个互联网网页的大规模预训练阶段,也不存在后来的人为监督微调。他特别指出,监督微调在自然界中是不存在的。他还强调了另一点:即使你把预训练看作是在强化学习之前的一种「先验初始化」,这种方法依然被人类偏见污染,从根本方向上就是错的。

在 Sutton 的世界观中,智能的一切都来自于通过强化学习与环境的持续交互。奖励函数部分由环境决定,但也包含内在动机, 比如好奇心、兴趣、探索的乐趣等,这些都与智能体世界模型中预测的质量相关。在这种框架下,智能体在测试阶段仍然持续学习,学习不是「一次训练、永久部署」,而是一种默认持续进行的过程。

Sutton 的这些观点引发了诸多争议,他本人也参与了近期的一场新圆桌,进一步讨论上述问题。

,时长29:27

这场圆桌由投资机构 Intrepid Growth Partners 发起,其创始人兼合伙人 Ajay Agrawal 担任主持,MIT 教授 Sendhil Mullainathan、应用人工智能科学家 Niamh Gavin、Nirvanic Consciousness Technologies 创始人兼 CEO Suzanne Gildert 也参与了讨论。

这些专家碰撞出了许多有价值的观点。以下是xxx对播客内容的整理:

纯粹的强化学习很难实现

主持人: Suzanne,我想问问您的看法,Rich 在那期播客中说的一句话,我好像也听您说过,他说:「如果我们能造出与松鼠心智相当的东西,那我们基本上就成功了。」播客的主持人当时举了登月这样的例子,感觉人类登月和松鼠藏坚果之间差距巨大。但我知道,您的世界观其实与 Rich 的更为接近。

Suzanne: 关于松鼠的问题,我认为构建一个松鼠那样的心智,要比构建一个能通过我所说的「高级监督学习」来执行任务的系统难得多。因为我们目前所做的一切基本上都是监督学习,并没有真正意义上的强化学习在发生。每当有人尝试进行纯粹的强化学习时,他们最终总是会回到模仿学习的道路上。

因为我相信,纯粹的强化学习是极其困难或不可能实现的,因为我们无法定义通用的奖励函数。因此,我认为在我们找到定义、获取或创造通用奖励函数的方法之前,我们无法最大限度地发挥强化学习的潜力。

而我理想中的那种能力是,你可以像对待一只松鼠那样,把它放到一个新环境中,它就能自主地开始学习。你可以将任何智能体置于一个全新的环境中,它会自己开始学习。而我们今天的任何系统都做不到这一点。所以,这就是我们需要构建的系统与我们目前所认为的智能系统之间的区别。我们现有的系统非常聪明和智能,但如果你把它们放到一个从未见过的新场景或新用例中,它们无法学习。因此,关键在于「学习」这个部分,重要的不是它能做什么、它已经学会了什么,而是「它如何学习新事物」。

只有「利用」,没有「探索」

主持人: 好的,我们先听听 Niamh 的看法,然后是 Sendhil,最后请 Rich 回应。Niamh,您可以随意选择任何您感兴趣的话题进行展开。

Niamh:或许作为一名正身处这场技术浪潮中心的人,我可以快速地从头到尾梳理一下各个流派的想法。我时常对一件事感到惊讶:硅谷本应是思想自由的家园,但有时却表现出惊人的「派系化」倾向。而我个人更倾向于博采众长,从各个流派中借鉴思想。

理想情况下,当我们构建这些模型时,我们当然希望它们能从第一性原理出发,通过自身经验去发现和学习。但这存在一个「冷启动问题」。因此,许多人选择了一条捷径,那就是直接吸收整个互联网的数据。

这背后的原因有两点:他们认为写作是我们思维机制的良好体现,并且语言是区分我们与其他物种的关键元素。因此,它应该是一个足够好的起点。

挑战在于,我们在模型设计的每个环节上都走向了极端。例如,强化学习本应是「利用」与「探索」的良好结合。然而,我们所做的却是在有限的经验或内置的价值函数基础上,进行纯粹的「利用」。这导致的结果,正如 Suzanne 所说,更多的是模式识别,而非真正的理解;更多的是模仿,而非直觉思维。而自回归机制本身,就像是神经网络的顺序展开,更像是一条通往激活状态的序列化路径,而不是一个可以随时间微调、真正基于目标的目标函数。

所以我认为,我们中没有人会觉得「一个大语言模型加上一个好的提示词」就是人工智能的未来。理想情况下,我们都希望迈向那个难以捉摸的「通用近似器」—— 它具有泛化能力、能够进行迁移学习,并拥有一个像 Suzanne 提到的通用奖励函数。

现在,你已经开始看到这种转变。人们逐渐意识到大语言模型的局限性或脆弱性,并尝试创造更多持续学习的机制。至于这是否意味着回归到贝叶斯方法,或是采用演化算法来实现跨越式发展,目前尚无定论。

其次,是关于数据本身的问题。数据不一定是有噪声的,但它是否从我们真正关心的分布中采样而来?它并非基于思维模式,而是基于写作。而我们写作时的思考方式,与我们在现实世界中的思考方式不尽相同。这就是为什么我们现在看到向嵌入式系统的突然转变,它更趋向于一种「通过实践来学习」的机制,更侧重于价值函数而非奖励函数,并且是一种更少基于规则、更具探索性的经验获取方式。

还有一派人认为,通用人工智能将通过复制大脑来实现。但我不太认同这个方向。我一直觉得,我们应该让计算机去做它擅长而人类不擅长的事情,而不是一味模仿人类。我确实认为,在「缸中之脑」这个意义上,两者存在根本性的底层机制差异:人工智能的计算架构是简单的电子电路,而真实的生物系统是离子,它们速度慢,但效率极高。这就引出了一个问题:语言对于智能是基础性的吗?还是说智能仅仅是相互连接的网络?也许我们只是需要新的理论图景。

所有这一切的核心要素是,如果模型确实实现了这些巨大的飞跃 —— 这又回到了 Sendhil 的观点 —— 我们确实需要某种「机制可解释性」来剖析这些新设计,以理解它们是否可行以及是如何产生的。这有点像 AlphaGo 那著名的第 37 手,对吧?你如何从中追溯其思考路径和因果效应?

关于如何建立追踪机制和因果推断这个问题,其实最后还涉及到费曼学派那种「无法构建就意味着不理解」的理念。确实,我们虽然构建了 CNN 处理视觉任务,用 LLM 处理语言任务,但对这些模型涌现特性的理解仍非常有限。这不禁让人思考:这些工作到底有没有帮助我们真正理解神经网络?当下各种学术流派交汇之处正是思想摩擦的焦点,但在我看来,这些交叉领域才是最值得深耕的沃土。

苦涩教训被极端化理解成了非此即彼的筛选机制 —— 要么全盘接受算力优先,要么完全否定。但复制 40 亿年进化历程是极其复杂的工程,仅完成果蝇连接组就耗费了我们数十年,更不用说松鼠级别的神经系统了。或许我们该暂时放下傲慢,更多拥抱科学方法论与探索精神,而不是像拿着锤子逐词处理那样机械地推进。当然这些话题更期待 Rich 教授的深度见解,我不过是这个领域的过客与旁观者。

只模仿最终表现是不够的

Sendhil Mullainathan:Richard,我发现你转发的一条推文很有意思。虽然你原推文提到斑胸草雀(说实话我之前根本不认识这种鸟),不过我可以引用 Chris 转评的内容。他指出你的核心观点是:当人类进行模仿时,我们模仿的是最终表现,但必须自行探索实现过程 —— 这个洞见简直直击问题本质。网上可能很多人没能理解这个精微区别,这完全可以理解,因为其中的确充满微妙之处。

图片

关键在于探索过程这个动词。我们与世界的联系始终停留在表层:听到斑胸草雀的鸣叫,看到他人完成代数证明,这些都只是表象。我们无法直接观测到内在机制:鸟类如何调动鸣肌,解题者如何构思证明步骤。即使是在高阶认知活动中,当有人向我们解释某事时,那仍然只是表层信息。我们始终需要动用自身认知系统去探寻:在物理层面这些结果究竟是如何产生的?

这个认知逻辑非常清晰。就像听到鸟鸣后想要模仿,我们不可能知晓鸟类具体如何控制鸣管,只能用自己的声带反复尝试。认知活动也是同理。即使是在相互解释时 —— 不知道你们是否听过那个关于冯・诺依曼的火车谜题轶事?两列相向而行的火车,有蜜蜂往返其间,要求计算蜜蜂总飞行距离。冯・诺依曼瞬间给出答案,当被问及是否用了取巧方法时,他反问道:什么巧解?其实这个问题确实存在通过洞察规律快速求解的方法,当然也可以选择暴力计算无穷级数 —— 虽然没人会这么做。

图片

这个故事之所以令我回味,是因为它揭示了一个本质:即使我们目睹认知活动的成果,甚至获得详细解释,不同个体构建内部表征的过程依然独一无二。

我之所以展开这些讨论,是因为这个区分让我豁然开朗:如果强制模型必须理解特定行动会产生何种结果,它就不得不构建行动与结果之间关系的内部表征。按照我的理解,这或许正是当前模型缺乏良好世界模型的关键原因 —— 它们没有被强制要求探索在特定行动空间中,哪些操作能产生我们观察到的结果(无论是语言表达还是数学证明)。不过我们也能观察到某些领域它们确实建立了完善的世界模型,比如国际象棋或围棋 —— 在这些明确行动空间到结果输出的领域,算法确实构建了从行动到结果的映射关系。这个能力边界正在持续扩展,只是与基于文本语料训练的语言模型有着本质区别。

LLM 可能败在无法在短期内兑现承诺

Richard Sutton:感谢各位,刚才的讨论充满了真知灼见。但我想强调的是,虽然我们本质上都是科学家,习惯聚焦学术理念,但此刻我们正在尝试某种突破,我们其实是在审视这个领域的学术生态。没错,我过去常轻描淡写地用学术风尚来形容这种现象,但这个说法确实有失公允。

这更像是学术社群中不同思维模式的碰撞。科学史上始终存在多元思维方式,但当下情况更为特殊,当某种思维范式获得统治性地位时,要知道现在每年有数百上千亿美元基于特定理念投入 AI 领域,这不可避免会改变科学研究的本质。

关于苦涩教训的讨论,我想尝试做个总结。虽然我已经涉足了学术生态学分析,但这本质上是个社会学命题而非纯科学陈述。它揭示的是研究群体反复陷入的思维误区。传统 AI 研究始终围绕目标展开,整个领域都聚焦于解决问题、达成目标。

而现在,我们进入了一个全新的阶段:出现了一个强大而占主导地位的思潮,主张我们无需设定目标,只需模仿人类行为。这种观点认为,当模仿达到足够规模、算力与数据量级时,系统将发生质变,最终真正理解世界。它们不再只是机械模仿,而是获得了对世界的认知模型。

我始终认为这是个极端主张,正如那句名言「非凡的论断需要非凡的证据」。当下我们见证的正是这样的非凡论断:仅通过观察人类行为样本,依靠下一个词预测与微调,就能涌现理解与推理能力(他们甚至大胆启用了推理这个术语)。而坚持目标导向与实践经验至关重要的传统认知,反而被视作极端观点。

在当今以大语言模型为中心的讨论中,经过之前关于苦涩教训的探讨,我想聚焦一个核心问题:大语言模型将走向何方?这个问题我通常无法回答,因为我致力于其他技术路径的探索。

其实我不该对别人的技术路线妄加评论,这几乎有失礼节。但公众关注的焦点确实在于此:人们想知道我是否认为大语言模型违背苦涩教训的核心理念,最终沦为无关紧要的失败尝试?我们有必要深入思考并形成判断:它们会失败吗?这种失败未必指技术完全无效,而是指无法实现其承诺的宏伟愿景,考虑到投入这些系统的巨额资金,最近有位教授尖锐指出:如果大语言模型和 AI 技术需要 15 年才能兑现价值,那将是场灾难。因为当前投入的资金规模与承诺预期,若三年内未见成效,就可能引发市场崩溃或泡沫破裂。

换言之,它们在某些领域确实具有实用价值,但终将面临泡沫破裂,因为投资回报率无法匹配巨额投入。用苦涩教训的视角解读:将全部筹码押注在人类知识上是危险的,因为人类知识本身不具备可扩展性。而当前大语言模型的发展路径恰恰重蹈了这个覆辙。

需要说明的是,我并非大语言模型专家,精通大语言模型的研究者也非常少。但我们可以观察到:它们通过模仿人类行为与语言符号进行训练,试图复现人类可能生成的文本。但仅凭这点无法造就优秀的现代大语言模型,后续还需要大量微调与人类反馈强化学习(RLHF),投入巨大工程努力才使其成为实用工具(如摘要、翻译、问答)。它们能聚焦用户问题,正是因为在自然人类语言基础上附加了额外设计。这些系统经过大量人工设计,正因如此,其发展可能受限于可扩展性,过度依赖人类输入,而互联网数据虽规模庞大,终究存在边界。

据此我们或许可以推测:大语言模型终将触达互联网数据的边界,继而陷入过度依赖专家微调的困境。这将成为苦涩教训的又一个典型案例 —— 当系统无休止地依赖人工调试时,其失败几乎不可避免。我们的世界如此广袤复杂,永远存在未预见的场景与方法论。

相比之下,能从经验中自主学习的系统则能察觉现实世界的种种特质,这种能力终将占据主导地位。即使当前基于人类模仿的系统表现不俗,但那个起步相似却具备经验学习能力的系统,最终会取代前者。

虽然我起初声明不该对此发表观点(因为这并非我的主攻领域),但事实证明我已形成明确判断:这很可能将成为苦涩教训的新例证。随着思考的深入,我认为这种情况发生的可能性正与日俱增。

AI 界的「路径依赖」

Niamh Gavin:作为领域内的实践者,我完全赞同您的观点,Rich。但外界可能会质疑:为何历史总在重演?为何行业总不自觉地陷入自我设限的循环?这本质上反映了核心矛盾:哪些问题该由模型智能解决,哪些能通过工程手段弥补。优秀实验室总是兼顾研究与工程,但这种模式的弊端在于:当模型遇到瓶颈时,工程师第一反应往往是我能修复,而非退后一步思考系统级重构。

这种修补式迭代会导致系统日益脆弱和过拟合,正如你最初提到的,当市场商业化浪潮席卷而来,我们往往被既定路径绑架,直到某刻集体意识到必须重构新系统 —— 特别是在当前加速演进的环境下,这正是我们陷入的恶性循环。但转机在于:越早触达瓶颈,就越快迫使我们重新构想技术路径。

目前大语言模型领域已显现这种转变:从单纯依赖算力扩展定律、使用脆弱的 Transformer 主干,正逐步转向更注重推理能力的方法链。从最初的思维链推理,到现在更多探索强化学习环境,这种演进正在悄然发生。

Richard Sutton:我们都有创新者的困境。这就是你所说的。他们以一种方式做到了,他们倾向于不想尝试完全不同的东西。

分清模型「现在能做的」和「大家期待它能做的」很重要

Sendhil Mullainathan: 我想我在实质问题上几乎完全同意你的观点,Rich,但对于第二点有些不同意见。

我觉得我们需要分清两件事。一是这些模型被认为能做到什么,或者说大家期待它们很快能做到什么,二是这些模型实际上能做的那些了不起的事情。

对我来说,看清这一点很有帮助:人们看到这些行为,然后就开始推断,想象这将会看起来像是智能,或者随你怎么称呼它。

我认为这种推断是误导性的。但对我来说那不是真正的悲剧。真正的悲剧是,它们能做的事情其实很惊人。我们只是需要给它起个不同的名字,叫它别的什么。它有着难以置信的价值,难以置信的用途。这是你一次又一次看到的那种情况 —— 问题不在于缺少什么。就像我们在互联网泡沫中看到的那样。互联网确实具有变革性,这毫无疑问。认为它不具有变革性简直是疯了。

但问题是,当时人们对它的期待 —— 尤其是对某些具体公司的期待 —— 实在是太过头了。我觉得现在的情况也有点像。

所以对我来说,整个公共讨论中最让人分心的部分 —— 我说的不是我们这个圈子,而是外面的大众讨论 —— 是我们一直没有好好聊聊已经发生的这个奇迹。纯粹的模仿竟然能产生这么多非凡的特性,这是怎么做到的?我们到底获得了多少涌现能力?它究竟能做什么?这些都是特别有意思的学术问题。

是的,它不会达到真正的智能。但是 —— 很多了不起的创新都不是「智能」,我们照样找到了很好的用途。我觉得这才是最让我失望的地方。

主持人:说到这里,我要特别表扬一下 Sendhil 自己。经济学界有很多人在研究这个领域,大多数人在论文标题和正文里都用「人工智能」这个词,但 Sendhil 不这样。他马上要发表的论文叫《算法时代的科学》之类的,他用的是「算法」这个词,不是「AI」—— 尽管他说的就是别人口中的 AI。

参考链接:

​https://www.youtube.com/watch?v=e-sghqKZ-Mw​

​https://x.com/karpathy/status/1973435013875314729​

...

#从无图到轻图,大模型时代图商的新角逐

随着辅助驾驶的技术迭代,与之相关的地图技术以及图商格局,也在悄然发生变化。

2021年是辅助驾驶进入城区的关键里程碑,次年车企们为加速实现「全国都能开」的目标,掀起了一场「去高精度地图」的潮流。但随着城市NOA的普及,出于对安全性、舒适性、连续性的严苛要求,人们很快意识到辅助驾驶系统难以脱离地图独立运作。

但如果只是延续以往地图重度依赖测绘车队的采集方式,在辅助驾驶大规模普及的强烈需求面前,这样的传统作业方式显得捉襟见肘。因此,轻图/云图等创新形态应运而生

过去几年,高德、百度、腾讯等头部图商都调整了自身的策略,推出了更新更快、成本更低的各类「轻地图」产品,包括HD Air/HD Lite/SD Pro等等。

地图形态变化的背后,除适应辅助驾驶本身的技术迭代外,也牵动了地图市场格局的变化。高精度地图时代,高德、百度占据着主导地位,但随着轻地图成为车企的主流选择,腾讯地图脱颖而出。

据《高工智能汽车研究院》数据显示,腾讯已经为蔚来、乐道、极氪、魏牌等汽车品牌的城市NOA提供智驾地图服务,占新能源乘用车市场(不含增程式)标配城市NOA智驾地图市场49.01%的市场份额,位列榜首。而排在第二名的是高德,占新能源市场(不含增程)标配城市NOA智驾地图市场47.9%的市场份额。

新能源汽车智能化竞赛当前烽火正炽,随着端到端技术上车,AI大模型给辅助驾驶的开发带来了颠覆性的变化,地图的形态也将随之持续演进,图商们的竞争也远未到终点。

在这之中,谁能够最先看准趋势,并坚定拥抱新趋势,谁才能够最先登上新大陆。

从无图到轻图

智驾地图形态的演变

随着车企落地量产辅助驾驶的进程,智驾地图的发展也大致经历了3个阶段:

最初是高精地图的甜蜜期。2018年 - 2021年,越来越多的车企开始量产L2+辅助驾驶系统,包括小鹏、蔚来、理想、北汽极狐、长安阿维塔、广汽等数十个品牌先后量产高速组合辅助驾驶功能,围绕高速路和城市快速路的高精地图迎来了快速发展期。

图片

城区高精地图样例,图片来源:DeepMap

第二阶段是追求「无图都能开」的激进期。到2021年之后,辅助驾驶要进入城区,由于法规、成本、更新频率等的约束,高精地图在支持几大试点城市之后,无法快速地拓展到全国,这与车企卖车的诉求存在根本矛盾。

彼时行业都认为,高精度地图受制于成本、要素更新等因素,很难满足车企的需求,毕竟乘用车要在全国都能跑,显然高精度地图不能满足用户需求。因此,实现「无图全国都能开」,又是2022年各大车企和辅助驾驶公司竞争的制高点。

据说那两年会有车企用板车拉着供应商的测试车,选定一些任意的地点,看看放下能不能跑起来,以检验是不是「真无图」。也有不少民间测试专挑偏僻郊区的小路直播辅助驾驶,因为这样的路段,显然不太可能提前采集高精地图。

但「无图」是以一定程度上牺牲体验为代价的。

图片

图片来源:车企官方

如果对比过当时「有高精地图」的系统和「无高精地图」的系统,很容易发现后者在稍微复杂一些的路段会出现能力的回退;并且所谓「无图」并不是完全无图,至少需要有导航地图存在。

当下是回归「轻地图」的理性期。迈入2024年,随着辅助驾驶在全国逐渐普及,车企进入了比拼用户体验的红海阶段。安全性、连续性和舒适性,成为衡量辅助驾驶体验最重要的三大指标

也是从去年下半年至今,众多车企开始推出新一代的基于端到端大模型的辅助驾驶系统,从实测表现上来看,驾驶博弈是新一代大模型系统明显提升的地方;而针对复杂道路结构的认知,却是大模型系统的短板。

轻高精地图方案,完美地切中了这一转型的需求。

比如一些车道的变化点、路口的左拓/右拓,甚至复杂路口的连通关系、经验行驶轨迹等等,这些超视距信息,对辅助驾驶的安全性、连续性和舒适性,无疑至关重要。

相较而言,地图从高精度元素转向丰富的语义信息,是轻高精度地图的重要特征。早期辅助驾驶在使用高精度地图时,对道路几何要求较高,需要很高的精度。现阶段,头部的辅助驾驶团队,对几何精度不会有太高要求,但对超视距、语义化的内容会需求更多更详细的信息,比如拓扑连接关系、复杂路口的导航引导信息、车道的引导信息等。

图片

图片来源:车企官方

截至目前,极氪、长安、比亚迪,甚至特斯拉等中国市场主流车企,都在车端不同程度地采用了轻高精地图的方案

智驾地图的搭载量也呈现出迅猛增长之势,高工智能数据显示,2024年,中国市场新能源乘用车(不含进出口)城市NOA搭载智驾地图已超过70万套

在经历了几年的演变之后,从高喊「无图去图」,到「轻图真香」,智驾地图的价值显然已被重新论证。伴随着智驾地图形态的演变,图商们的竞争也日趋激烈,其市场地位也悄然发生了变化。

轻地图时代

腾讯地图为什么脱颖而出?

早期由于针对辅助驾驶的地图还未形成明确系统的政策约束,地图市场玩家百花齐放,甚至部分车企也通过收购具备测绘资质的图商,希望自主地覆盖地图采集。

但在2022年,这一现象戛然而止。这年7月,国家自然资源部下发了《关于促进智能网联汽车发展维护测绘地理信息安全的通知》。自然资源部认定,自动驾驶汽车收集道路环境信息是测绘行为,包括自动驾驶测试采集的数据、传感器的中间数据等,只能由国家颁发导航电子地图制作甲级测绘资质的企业来操作。

彼时国家有关主管部门对国内企业高精度地图测绘资质进行复核,包括高德、四维图新、腾讯大地通途等19家企业通过资质复核,而此前具备甲级测绘资质的企业有31家,同比减少12家。这导致,地图市场开始向头部玩家聚集

在传统高精地图市场中,高德、百度、四维图新等传统图商占据着主导地位。而迈入轻地图时代,腾讯地图则开始脱颖而出。

为什么呢?这既来自于腾讯团队对技术的预判,也因为其更加开放、灵活的定位。

早在2022年,基于对辅助驾驶行业技术发展趋势的预判,腾讯地图就开始从高精度地图向轻高精度地图转型。一方面在既有的高速、城快路的高精地图业务上,配合车企进行覆盖范围和鲜度的更新;另一方面,腾讯轻高精地图(HD Air)也开始具有初步的雏形。

通过与长安、极氪等车企客户的合作,腾讯大概在半年到一年的时间内,就完成了智驾云图产品定义的收敛。2023年4月,腾讯正式发布了面向城市辅助驾驶场景的HD Air轻量级高精数据产品

搭载长安天枢智驾的启源Q07,图片来源:车企官方

去年,腾讯又进一步推出「腾讯地图车机版8.0」舱驾一体解决方案,对各层级地图数据要素的进一步分类、整合与加工,通过统一的地图和数据平台,实现人驾和车驾共用一张图、共享一份数据。

也就是说,标准导航地图(SD Map)、轻高精地图(HD Air)、高精地图(HD Map)等不同精度等级的地图数据,可以做到数据同源、质量同级;并且模块化工具链,可以支持车企按需灵活取用必要的地图要素。

图片

腾讯智驾云图,图片来源:企业官方

传统的地图常常采用离线数据包的形式进行交付,而腾讯则可以通过云服务的方式提供地图数据,包含「 云到端」和「 云到云」两种模式,这也就是现在腾讯对外输出的「智驾云图」方案。

「 云到端」指的是,可以将地图数据最新的变化、动态交通及环境信息、驾驶经验数据等下发到车端提升体验;「 云到云」则是,直接对接车企的辅助驾驶云,车企可以将智驾云图的数据和自有数据融合使用,从而更大程度地挖掘自有数据的价值。

智驾云图的另一个核心优势,则是可扩展的多图层数据形态。简单说,它不是一张 “固定的图”,而是一套 “能生长、能运营的地图生态”,其可以支持ODD灵活配置、即插即用的在线服务,还能提供运营工具链,车企可以根据自身需求快速调整。

在驾驶经验图层上,也可以与车企灵活共建,共同打造“环境经验图层” 和 “驾驶行为经验图层”。比如哪里是颠簸路、建议车速多少,哪里是危险路段需要谨慎,甚至变道模式、弯道车速、新能源道路节能指数等,这些 “经验” 能让辅助驾驶更像 “老司机”。

同时,由于地图要素能按导航路线或区域发布,所以其还可以支持车端传感器的差分更新,像限速牌、电子眼、车道线这些静态要素,根据置信度进入数据流转,部分能实现天级更新,而道路状况、车道级交通事件、恶劣天气这些动态要素,依托车端感知回传和生态伙伴支持,能做到实时发布。

从基础地图层、更新要素层,到客户数据层、驾驶经验层、运营层、ODD动态层…… 车企可以像搭积木一样自由组合,满足不同场景的需求。

当前智驾地图市场呈现 “双寡头主导、多元竞争” 的格局,腾讯与高德在城市NOA市场垄断超96%份额,百度、四维图新在传统领域保持优势,华为通过全栈方案间接影响地图需求。

尽管凭借对技术趋势的精准预判,以及对转型的决心,腾讯地图在轻地图时代实现了赶超,但行业远未到达竞争的终点。AI大模型时代的到来,智驾地图的形态也仍在继续演变,竞争仍在持续。

智地图竞争远未到达终点

从最初对「无图」的追逐,到现如今轻高精地图技术的深度探索,车企与产业链玩家逐渐认清:地图不是辅助驾驶的 「负担」,而是提升辅助驾驶体验的「利器」。

也正因此,智驾地图市场的体量,也随着城区辅助驾驶的大规模普及在快速稳健地增长。据泰伯研究院预测,智驾地图市场2025年将达54亿元,预计到2030年,市场规模有望达到117亿元。

但地图的形态到此却还不是终局,随着AI大模型的到来,地图形态仍在发生变化

图片

蔚来世界模型,图片来源:车企官方

端到端技术的上车,让AI大模型对辅助驾驶开发方式产生了颠覆性影响,这也驱使地图形态出现新的演变方向,未来地图将不再仅局限于传统意义上富含高精要素和道路几何的数据库,而是逐步融入模型,成为大模型的有机组成。

大模型本质上是一种知识压缩,这也就意味着,未来地图的形态最终有可能是以模型的形式存在,并通过自动驾驶系统感知系统,将地理位置环境信息数据,作为一个观测信息给到大模型,大模型经过对数据的推理和判断,最终给出规划执行结果。

除了地图本身的数据形式会发生改变之外,大模型技术还会影响到从地图采集生产到仿真验证中间的每一个环节。

当然,大模型的发展将给地图行业带来新的形态改变,而也势必会导致整个行业格局的变化。无论是新老玩家,只有能够抓住新范式,才会在新领域中拿到更多的份额。

对于腾讯这类先行布局的图商而言,行业对智驾地图的重新认知,使其迎来了前所未有的发展机遇,但地图的演变并未达到终点,那么行业的竞争也远不会停止。而谁能够坚定的拥抱未来,谁才有可能走向最终的胜利。

...

Logo

欢迎加入我们的广州开发者社区,与优秀的开发者共同成长!

更多推荐