整理 | 屠敏
出品 | CSDN(ID:CSDNnews)

初夏刚至,国外科技圈便进入了一年一度的开发者大会密集期。

相比微软 Bulid、苹果 WWDC,今年 Google I/O 来得更早一些,于北京时间 5 月 20 日凌晨 1 点率先开场。

但和很多人印象里的 Google I/O 不同,今年 Keynote 上,几乎没有看到全球第一大移动操作系统 Android 的身影,整场发布会的关键词几乎都围绕「模型」、「编程」、「智能体」、「搜索」展开。

对于开发者而言,今年 I/O 更像是一场关于“AI 入口之争”的观察窗口;而对于普通用户来说,它则关系到未来几年里,我们每天使用手机、搜索信息、处理工作乃至与互联网交互的方式,会被 AI 改造成什么样。

而 Google 这次给出的答案,也明显比往年更激进一些。

如果说这次最新发布的 Gemini Omni Flash、Gemini 3.5 Flash 模型只是“前菜”,那么变化最大的,无疑是那个几乎所有人每天都会打开无数次的 Google 搜索框——它正在迎来 Google 25 年以来最大的一次 AI 化改版。

图片

Google “AI First”的十年,已进入规模化落地期

回看 2016 年,当 Google CEO Sundar Pichai(皮查伊)第一次提出“AI First”战略时,外界对于今天的大模型、生成式 AI 乃至 AI Agent 时代,还几乎没有明确概念。

彼时,Google 已经开始要求公司从自研芯片、基础设施,到搜索、YouTube、Android 等核心产品,全面按照“AI First”的逻辑重新搭建。

如今十年过去,这场曾经被视为长期战略的 AI 转型,正在 Google 身上进入集中兑现阶段。

在 Google I/O 2026 Keynote 开场演讲中,皮查伊回想当年 Google 之所以全面转向 AI,并不只是一次技术路线调整,更因为团队坚信,AI 会成为推动 Google 长期使命的核心能力——它不仅会改变信息获取方式,也会大规模范围内改善人们生活。

图片

皮查伊坦言,过去一年,是 Google AI 能力全面提速的一年,也是整个行业变化最快的一年。相比前几年还在不断向外界展示模型能力,如今的 Google,更希望证明另一件事:AI 如何真正进入数十亿用户每天使用的产品。

其表示,Token 已经成为衡量 AI 使用规模的重要指标。作为模型处理数据的基本单位,每一个 Token 的背后,其实都代表着一个正在被 AI 解决的问题。两年前,Google 各平台每月处理的 Token 数量约为 9.7 万亿;到了去年 I/O 大会,这一数字增长至约 480 万亿;而如今,这个数字已经再次暴涨 7 倍,达到每月 3.2 千万亿(Quadrillion)。

「这并不是单纯的“数字游戏”,而是真实行业需求爆发的体现」,皮查伊指出,目前已经有超过 850 万名开发者基于 Google 模型构建应用;过去 12 个月中,Google 模型 API 每分钟处理约 190 亿个 Token;同时,还有超过 375 家企业客户,各自累计处理超过 1 万亿个 Token。

而这些能力,也正在迅速反馈到 Google 自身的产品体系中。

于是,在发布会现场,皮查伊也“疯狂”晒出各项产品的数据佐证「Google 如何用过去十年的时间,将 AI 基础设施、模型研发与产品体系真正整合成下一代用户体验之中的」:

目前 Google 已拥有 15 款月活用户超过 10 亿的产品,其中 5 款产品用户规模甚至超过 30 亿。而 Gemini,正在成为推动这些产品增长与用户活跃度提升的核心驱动力。

搜索仍然是 Google AI 战略最关键的落地场景。作为 Google Search 历史上的一次大升级,在短短一年内,AI Overviews 月活跃用户已超过 25 亿。

Gemini 应用本身的增长也相当迅猛。去年 I/O 大会期间,Gemini 月活用户约为 4 亿;而现在,这一数字已经突破 9 亿,一年时间翻了一倍以上,每日请求量也增长超过 7 倍。截至目前,用户已通过 Gemini 生成超过 500 亿张图片,而包括个性化智能在内的新能力,也开始让模型输出变得更加贴近用户自身需求。

除了 Gemini 独立应用,Google 也在把对话式 AI 深度整合进旗下核心产品。例如 Google Maps 即将迎来近十年来最大一次 AI 升级,新增的 “Ask Maps” 功能,可以理解用户更复杂、更长上下文的自然语言查询;同时,Google 也将发布“Ask YouTube”功能,用户只需描述需求,系统便会自动生成内容概览、实用建议以及相关视频推荐。目前,该功能已经开启测试,预计今年夏天率先在美国上线。

针对语音交互需求,Google 推出了“Docs Live”新功能。皮查伊表示,以往使用 Gemini 创建文档需输入精准提示词,而 Docs Live 允许用户随口说出想法,Gemini 即可完成文档创建。该功能将于今年夏天面向 Pro 和 Ultra 订阅用户推出,同款语音功能也将同步引入 Gmail 和 Google Keep。

皮查伊表示,这些大规模的 AI 创新落地,离不开基础设施的巨额投入。他披露,2022 年 Google 年度资本支出为 310 亿美元,而今年预计将达到 1800 亿至 1900 亿美元,是 2022 年的约六倍。

在这之中,定制芯片是基础设施投资的核心。皮查伊回顾道,十年前 Google 在 I/O 大会发布首款商用张量处理器(TPU),改变了整个行业的 AI 构建方式;近期在 Cloud Next 大会上,Google 又推出第八代 TPU,首次采用双芯片方案,分别针对训练和推理优化。其中,训练专用芯片的原始算力接近上一代的三倍,借助 JAX 和 Pathways 技术,训练任务可跨多个站点分布,全球扩展至超 100 万个 TPU,让大型模型训练周期从数月缩短至数周;推理专用芯片则大幅提升速度,Flash 模型在该芯片上运行时,Token 处理速度接近每秒 150 个,且能效更高,每瓦性能提升多达两倍。

随后,皮查伊分享了本次 I/O 的核心亮点——围绕模型、编程与智能体,Google 开始集中公布今年最重要的一批 AI 更新。

图片

AI 开发者计划已开放申请,免费领 100 小时云算力券
支持主流 AI 框架与模型部署
AMD开发者注册.png

在这里插入图片描述

Gemini Omni 登场:输入一切,生成一切

“我们如今已经拥有能够进行规划并执行任务的智能体,而通用人工智能(AGI)也被认为距离我们仅有几年之遥”,Google DeepMind 负责人哈萨比斯(Demis Hassabis)在分享 Google 大模型最新进展时预测道。

紧接着,他正式发布了 Google 最新的多模态模型——Gemini Omni。

图片

这款模型能够根据任意输入(包括视频)生成任何内容。简单来说,基于 Gemini Omni,你可以将图像、音频、视频和文本组合输入,并生成基于 Gemini 真实世界知识的高质量视频内容。

比如只用一个“Make the sculpture out of bubbles.”Prompt,就可以得到一个逼真的视频。

在大会现场,Hassabis 也强调,这些视频过程并非一次性生成完成,而是可以持续迭代优化。正如 Imagen 在图像生成领域带来的交互方式变革一样,Omni 试图将视频创作转变为一种“可对话编辑”的流程。

这也引出了全新的 Gemini Omni 几个关键特性:

  • 用户可以通过自然语言持续编辑生成结果,实现类似对话式的视频创作体验;

  • Gemini Omni 不仅能够构建逼真的场景,还能够推测后续可能发生的情节,将对物理世界的直觉理解与 Gemini 对历史、科学和文化背景的知识结合起来,从而弥合照片级写实与深层叙事之间的差距。

  • 它还可以将任何引用形式——图像、文本、视频或音频——统一转化为单一输出。其中在音频方面,目前该模型初期仅支持语音输入,但 Google 表示未来将很快扩展更多类型的音频输入能力。

在安全与防滥用方面,Google 强调,所有通过 Omni 生成的视频都将嵌入不易察觉的 SynthID 数字水印。用户可以通过 Gemini 应用、Chrome 浏览器中的 Gemini,以及 Google 搜索轻松验证视频是否由 Gemini Omni 生成。

值得一提的是,借助 SynthID 数字水印技术,皮查伊在现场顺带回应了网上一张广为流传的“他吃汉堡”的照片。他笑称,这张图片去年在社交媒体上被广泛传播,但显然是假的——“因为我根本不吃汉堡。”

他进一步解释道,其实 Gemini 能够识别出该照片的来源,它是由 Pixel 相机拍摄后,再通过 Google 相册进行编辑而成。

在这里插入图片描述

作为 Omni 系列的首个版本,Gemini Omni Flash 在这次大会上正式上线。这款模型已经集成到 Gemini 应用、Google Flow 以及 YouTube Shorts 等产品中,重点支持视频生成与编辑能力。未来,该系列能力还将逐步扩展到图像与音频等更多输出形态。

对于想要尝鲜的小伙伴而言,Gemini Omni Flash 即日起面向全球所有 Google AI Plus、Pro 和 Ultra 订阅用户开放,用户可通过 Gemini 应用与 Google Flow 使用该功能。

Gemini 3.5 Flash:每秒生成 token 的速度是其他模型的 4 倍

新一代 AI 模型 Gemini 3.5 Flash 也随即重磅发布。

Google 表示,Gemini 3.5 Flash 在复杂编程与智能体任务的多项基准测试中表现优于 Gemini 3.1 Pro,例如 Terminal-Bench 2.1(76.2%)、GDPval-AA(1656 Elo)以及 MCP Atlas(83.6%),并在多模态理解能力上同样领先(CharXiv Reasoning 达到 84.2%)。

图片

同时,3.5 Flash 是一款处于前沿水平、能力极强的模型,其表现可与最顶尖的模型媲美,但速度要快得多。从输出速度来看,其每秒生成 token 的速度是其他前沿模型的 4 倍。

图片

就 Google 内部而言,其已将 Gemini 3.5 Flash 作为新的默认 AI 模型。

此外,Google 称,使用 Gemini 3.5 Flash 搭配开发平台 Antigravity,可以极大地加速构建应用的进程。

所谓 Google Antigravity,是一个面向开发者的“智能体优先”(Agent-first)开发平台,旨在帮助开发者将想法快速转化为可投入生产的应用。此次,Google 正在扩展 Antigravity 生态,使其能够统一管理和部署智能体,并将其整合到关键开发工具链中。

围绕 Antigravity 平台,Google 此次也带来了几个值得关注的更新:

  • Antigravity 2.0:这是一款全新的独立桌面应用,完整呈现了面向智能体优化的使用体验。它作为智能体交互的核心枢纽,允许用户同时编排多个智能体并行执行任务。该版本还引入了动态子智能体(subagents),用于支持并行化工作流;同时支持定时任务实现后台自动化,并与 Google AI Studio、Android 以及 Firebase 等生态系统进行集成。

  • Antigravity CLI:对于偏好终端环境的开发者,Antigravity CLI 提供了一种轻量、高效率的交互方式,无需图形界面即可快速创建新的智能体。Google 也建议现有 Gemini CLI 用户迁移至 Antigravity CLI。

  • Antigravity SDK 提供对 Google 内部智能体执行框架的程序化访问能力。该 SDK 针对 Gemini 模型进行了优化,开发者可以基于它自定义智能体行为,并将其部署在任意基础设施上。

  • Gemini Enterprise Agent Platform 中的 Antigravity:在企业场景中,Antigravity 也被集成进 Gemini Enterprise Agent Platform,使 Google Cloud 用户能够将其直接连接到云端项目,从而简化企业级工作负载的构建与管理。

  • Google AI Ultra 订阅(现起价 100 美元/月):Google 同时推出新的 AI Ultra 订阅计划,月费 100 美元,旨在将前沿 AI 能力直接带入开发工作流。相比 Google AI Pro 计划,该订阅在 Antigravity 中提供 5 倍更高的使用额度。此外,在限时活动期间,Google 为新老 AI Ultra 用户提供价值 100 美元的 Antigravity 奖励积分。当用户达到套餐额度上限后,该积分将自动生效。用户可在 Antigravity 应用中领取该优惠,该活动将于 2026 年 5 月 25 日结束。

那么,在开发者使用新的 Antigravity 和 Gemini 3.5 Flash 时,究竟能把智能体模型的极限推进到什么程度?

对此,Google 工程师团队展示了智能体挑战了一项极其复杂任务的结果:从零开始构建一个可以运行的操作系统。要知道,开发操作系统向来被认为是软件工程里最复杂的工作之一,传统情况下,往往需要大量工程师花上数月时间协作完成。因为它不是开发一个普通 App,而是要构建一套能让其他应用运行起来的底层系统,包括调度器、内存管理、文件系统等核心模块。

让众人惊讶的是,智能体却很快就完成了这个过程。 Antigravity 将任务分解,再交给多个智能体并行处理。最终,在 12 小时内,93 个子智能体并行工作,发起了超过 15,000 次模型请求,处理了 26 亿个 token,将一个最初空白的项目变成了一个功能完善的操作系统内核。

按照 Google 的说法,这类任务在上一代 Gemini 3.1 Pro 上几乎无法完成,但借助 Gemini 3.5 Flash 更高的推理效率和更低的成本,整个操作系统生成过程中消耗的 API 成本甚至不到 1000 美元。

不过,Google 也没有回避一个现实问题:智能体编程非常“烧 token”。为了降低这类任务的成本,Google 表示他们进一步优化了 Flash 模型。在 Antigravity 内部,Flash 的运行速度相比此前又提升了数倍,最高可达到原先的 12 倍。

皮查伊现场还专门算了一笔账。他表示,很多企业今年刚到 5 月,就已经快把全年的 AI token 预算花完了。而 Gemini 3.5 Flash 的重点,正是在尽量降低推理成本的同时,维持接近顶级模型的能力表现。

按照 Google 的测算,如果一家每天处理约 1 万亿 token 的大型企业,把 80% 的任务从其他前沿模型切换到 Gemini 3.5 Flash,每年理论上可以节省超过 10 亿美元的成本。

目前,Gemini 3.5 Flash 已正式接入 Google Antigravity、Google AI Studio、Android Studio 中的 Gemini API,以及 Gemini Enterprise Agent Platform 等产品中。普通用户也已经可以在 Gemini 应用和 Google 搜索 AI 模式中直接使用。

Gemini Spark:Google 想把 AI 助手变成“全天在线”的个人智能体

相比单纯升级模型能力,今年 Google 在 I/O 上还想展示的一件事,是 AI 如何真正开始“替用户做事”。

在智能体方向上,Google 发布了 Gemini 应用的新功能 —— Gemini Spark。按照 Google 的定义,它不再只是一个聊天助手,而是一个可以长期在线、持续处理任务的个人 AI 智能体。

对此,Google 分享了 Gemini Spark 不少应用的场景案例,例如,用户可以给 Spark 设置长期任务或自动触发条件:定期分析信用卡账单、识别新增订阅项目。更进一步,Spark 还能够串联多个工具完成完整流程。比如,它可以从邮件、聊天记录和会议笔记中整理信息,自动生成 Google Docs 文档,甚至顺手起草后续项目邮件。整个过程不需要用户频繁切换应用,而是由智能体在后台持续执行。

在这里插入图片描述

Google 表示,Gemini Spark 运行在 Google Cloud 的专用虚拟机上,由 Gemini 3.5 与 Antigravity 框架驱动,因此即使用户关闭电脑或锁定手机,它依然可以继续在云端运行任务,实现 24/7 在线。

这也是 Gemini Spark 和传统 AI 助手最大的区别之一。过去的大模型助手更像“问一句答一句”,而 Gemini Spark 更接近一个持续在线的数字代理:用户只需要交代目标,它会自己在后台推进任务。

为了实现这一点,Spark 与 Gmail、Docs、Slides 等 Google Workspace 工具进行了深度整合。Google 同时表示,未来几周还会通过 MCP 协议逐步接入更多第三方工具。

除了网页版之外,Gemini Spark 也支持 Android 与 iPhone。Google 表示,该功能本周会率先向测试用户开放,下周开始面向美国地区的 Google AI Ultra 订阅用户提供 Beta 版本。

与此同时,Google 还透露,今年夏天晚些时候,Gemini Spark 将进一步进入 Chrome 浏览器。而在 Android 生态中,Google 也正在构建一个更统一的智能体中心“Android Halo”,进一步把 AI 智能体能力整合进整个 Google 生态。

「每日摘要」:Google 推出的个人晨间简报功能开始上线

Google 在本次发布会上还推出了一项名为「每日摘要」(Daily Briefing)的新功能,定位也是一种面向个人的智能代理服务,用来在每天早晨自动生成一份个性化信息汇总,帮助用户快速了解当天需要关注的重点事项。

Google 表示,这项功能借鉴了 Google Labs 实验项目的相关经验,目标是为使用者提供一个无缝、直觉而且可以轻松踏入 AI 代理世界的入口,并在日常信息处理上减少手动整理的成本。

图片

在实际使用方式上,当用户开启「每日摘要」后,系统会在后台自动跨应用运行:例如从 Gmail 中筛选重要邮件更新,结合日历中的会议安排,再把需要跟进的事项整理成结构化摘要,统一呈现在用户面前。

与传统的信息汇总工具不同,「每日摘要」不仅是对信息的整理,还会基于用户的日程与任务情况,对事项进行一定程度的优先级排序,并给出后续可能需要处理的建议。用户可以通过简单的反馈(如“有帮助”或“需要改进”)来持续优化其输出结果。

Google 表示,该功能将从今天起率先在美国市场推出,并面向 Google AI Plus、Pro 以及 Ultra 订阅用户开放使用。

Google 搜索迎来 25 年来最大改版:搜索框开始“会思考”了

作为以搜索引擎起家的公司,Google 在今年 I/O 大会上,把最重要的一次更新给了搜索。

Google 宣布,全新的 AI 搜索体验正式上线。按照官方说法,这是 Google 搜索框自 25 多年前诞生以来“最大的一次升级”。

变化首先出现在最直观的地方:搜索框本身。

在这里插入图片描述

过去,Google 搜索框更像一个简单的输入入口,用户输入关键词,搜索再返回网页链接。但在 AI 模式下,这个入口开始变成一个可以理解、推理、追问和执行任务的 AI 交互界面。

Google 在现场展示中提到,新版搜索不仅支持文本提问,还能直接理解图片、文件、视频甚至 Chrome 标签页内容。用户可以像和 AI 对话一样,连续提出复杂问题,搜索会结合不同内容进行推理,并直接生成结果。

新版搜索背后由 Gemini 3.5 Flash 提供支持。当用户输入较长问题时,搜索框会自动扩展输入区域。AI 自动补全也不再只是补“关键词”,而是会尝试帮助用户继续完善问题本身。

相比传统搜索最明显的变化,是搜索结果页的逻辑正在被重构。

过去用户往往需要自己点开多个网页整理信息,而现在,AI 概览会优先出现在搜索顶部,以生成式摘要的形式直接给出答案,同时保留后续追问入口。Google 希望把搜索从“找链接”,逐渐变成“直接获得结果”。

值得关注的是,Google 还进一步把“智能体”能力带进了搜索。用户现在可以直接在搜索界面创建和管理 AI 智能体,用来持续跟踪特定任务或信息。例如,信息智能体可以在后台持续分析用户关注的内容,并在合适的时候主动返回结果,而不是等用户反复搜索。

另一个变化,则是 Google 开始把“智能体化编程”引入搜索。简单来说,搜索结果不再只是固定网页,而是会根据问题动态生成页面内容与交互形式。Google 表示,未来搜索可以围绕用户的问题,实时生成定制化的信息布局、交互组件甚至完整页面体验。

当前这套全新的 AI 搜索体验已经开始在支持 AI 模式的国家和地区陆续上线。

智能眼镜即将于秋季上线

在可穿戴设备上,Google 这次也把智能眼镜重新推到了舞台中央,其联合三星,以及眼镜品牌 Gentle Monster 和 Warby Parker,一起展示了新一代智能眼镜。

这次发布的产品分为两个版本:一类是仅支持音频功能的智能眼镜,Google 计划于 2026 年秋季率先上市;另一类是带显示能力的版本,将在之后推出。

该设备支持多项功能,包括:

  • 与 Gemini 进行免手持对话

  • 实时导航指引

  • 在视野中直接显示消息回复与文本翻译

  • 第一人称视角拍摄照片与视频

目前官方尚未公布售价信息,但预计更多细节将在 2026 年 7 月的 Samsung Galaxy Unpacked 发布会上进一步披露。
在这里插入图片描述

其他值得关注的更新

通用购物车:自动比价、纠错

除了大模型和硬件方面的更新,Google 这次还带来了两项面向 AI 电商的底层协议:UCP 和 AP2。

其中,UCP 更像是智能体电商世界里的“通用语言”,用来让不同的智能体与系统之间能够顺畅协作与通信。AP2 则更偏向支付层面的协议,主要负责智能体在涉及付款时的权限与控制,比如设置月度消费上限、支付确认与验证等。

基于这两项协议,Google 进一步推出了一个名为 Universal Cart 的“通用购物车”功能,可以理解为一个跨平台、跨场景运行的智能购物车。

在这里插入图片描述

你在浏览搜索、与 Gemini 聊天、观看 YouTube 甚至阅读 Gmail 时,都可以将商品加入购物车。一旦你添加了产品,你的购物车就会在后台为你工作:寻找优惠、监控降价、提供价格历史洞察,并在商品到货时提醒你。

它运行在 Gemini 模型之上,所以随着模型的提升,你的购物车也会变得越来越聪明。你可以把它看作是拥有超级能力的购物体验。

更有意思的一点在于它的“主动纠错”能力。Google 指出,比如用户在组装一台定制电脑时,把某款主板加入购物车,同时选择了一个并不兼容的处理器。系统会提前识别这种潜在冲突,并给出替代方案,在真正下单前就把问题解决掉。

Google 表示,这套能力将从今年夏天开始,逐步在 Google 搜索、Gemini、YouTube 和 Gmail 等产品中上线。

Gemini 使用体验升级,全新的设计语言

在 Gemini 的更新上,Google 还推出了一套新的设计语言,名为「Neural Expressive」,重点是让整个使用体验更自然、更接近对话本身。

图片

新的 Gemini 界面加入了更流畅的动画效果、更鲜明的色彩体系,以及重新设计的字体排版,并结合一定的触觉反馈,让操作过程不再只是“点按钮、看结果”,而更像是在和一个工具互动。

与此同时,Google 也把 Gemini Live 的对话能力直接整合进主体验中。用户可以在“简单输入问题”和“进入连续对话”之间自由切换,不需要反复退出或重新开始,思路可以保持连贯。

语音体验也做了重新设计。新的麦克风交互允许用户按自己的节奏表达想法,不会因为停顿或组织语言而被打断。同时,Google 也提到,未来会逐步加入更多本地化语音与方言选项,让声音更贴近不同地区用户的使用习惯。

不仅是交互方式,Gemini 在回答呈现上也做了调整。它不再只是输出一段文字,而是会根据问题内容,动态生成更适合的表达形式,比如图像、交互时间轴、带语音解说的视频,或是动态图表,让信息更容易被理解。

这套名为 Neural Expressive 的新设计语言,从今天起将率先在网页版、Android 和 iOS 平台逐步推送,并向所有用户开放体验。

Google Pics:AI 图像生成与编辑工具

另外,Google 推出了一款全新的图像生成与编辑应用——Google Pics。

在这个应用中,图片里的每一个元素都会被当作独立对象来处理,因此用户可以对画面进行更细粒度的编辑,比如移动人物位置、修改毛衣颜色,甚至把画面中的狗替换成猫。

该产品计划于今年夏季上线,初期将以独立网站形式提供,仅面向美国地区的 Google AI Ultra(200 美元订阅)用户,并支持英文版本。
在这里插入图片描述

以上就是本次 Google I/O 的一些核心更新。从模型、搜索到智能体和硬件,Google 把这一轮 AI 能力集中推到了产品层面。对你来说,最有用或最感兴趣的是什么?欢迎留言分享~

免费领取 100 小时 AI 算力|限时开放
加入 AI 开发者计划获取:

✅ AI 算力资源✅ 官方技术社群✅ Workshop 与 AI Academy✅ 开发者专属福利

完成认证后,额外领取:☕ 9.9 元瑞幸咖啡券

立即加入
在这里插入图片描述

Logo

加入「COC·上海城市开发者社区」,成就更好的自己!

更多推荐