简介

xAI推出的Grok-4-Fast是Grok-4的成本优化版本,采用统一架构将推理与非推理行为合并,拥有2M-token上下文窗口。该模型在保持相近性能的同时减少40%的"思考"令牌,实现98%的成本降低。支持原生工具使用,已在多个平台免费提供,API定价合理,适合高吞吐量搜索、编码和问答场景,是AI开发者的实用工具。


xAI 引入 Grok-4-Fast,作为 Grok-4 的成本优化后继版本,将“推理”和“非推理”行为合并到可通过系统提示控制的单一权重集合中。该模型面向高吞吐量搜索、编码和问答,具备 2M-token 的上下文窗口和原生工具使用 RL,决定何时浏览网页、执行代码或调用工具。

一、速览:5 个要点

  • 统一模型 & 2M 上下文:Grok-4-Fast 使用单一权重空间实现“推理”和“非推理”,通过提示引导,在两个 SKUs 的范围内拥有 2,000,000 Token 的窗口。
  • 规模化定价:API 定价从每输入 $0.20 / M tokens 起,每输出 $0.50 / M tokens,缓存命中为 $0.05 / M tokens,超过 128K 上下文后则收费更昂贵。
  • 效率主张:xAI 报告在可比准确度下,比 Grok-4 少约 40% 的“思考”令牌,从而在前沿基准上达到 Grok-4 性能的价格降低约 98%。
  • 基准概况:报告的 pass@1:AIME-2025 92.0%,HMMT-2025 93.3%,GPQA-Diamond 85.7%,LiveCodeBench(1 月–5 月)80.0%。
  • 原生 Agentic/搜索用例:在 RL 阶段加入 Agentic Use(即 AgenticRL);定位于加强文档搜索智能体和实时搜索工作流。

二、多家厂商已经支持,并免费提供!

在 OpenRouter 上,Grok 4 Fast 对用户们免费提供,并且拥有极高的生成速度:183.35 Tokens/s。

网友说:“如果你还没换上 Grok 4 Fast,那么你绝对是在烧钱、浪费钱。还有你需要这该死的 2M 上下文窗口。”

orchids 上也已支持无限量的 Grok 4 Fast,并在访问时直接跳出弹窗提示。

在 WindSurf 中,两天前就上架了一款名为 Code-SuperNova 的模型,并面向所有用户免费使用。同样拥有 2M 的上下文窗口,很难不把它与新发布的 Grok 4 Fast 联系在一起。

三、用例(来自网友)

Grok 4 Fast 具有多模态推理能力,是首个能够正确解决此任务的 AI 模型!

但也有部分人表示换个数字或者移动下位置就会导致失败,表明 Grok-4-Fast 极有可能只是记住了这道题。

2s 内解决经典的 LeetCode 高难度题目

高情商的导师:提供极为清晰的解答

四、内置原生工具

Grok-4-Fast 已经完成端到端的训练,并在以搜索为中心的智能体基准测试中显示出提升:

  • BrowseComp:44.9%
  • SimpleQA:95.0%
  • Reka Research:66.0%

且有部分测试中在中文变体上能够获得更高分数(例如 BrowseComp-zh 51.2%)。

xAI 还参与了 LMArena 的测试,其中grok-4-fast-search(代号“menlo”)在 Search Arena 中排名第 1, Elo 为 1163,文本变体(代号“tahoe”)位于 , 大致与grok-4-0709相当。

五、性能与效率差异

在内部和公开基准测试中,Grok-4-Fast 取得前沿水平的分数,同时减少令牌使用。

xAI 报告了 pass@1 的结果:92.0%(AIME 2025,无工具),93.3%(HMMT 2025,无工具),85.7%(GPQA Diamond),以及 80.0%(LiveCodeBench 1–5 月),接近或匹配 Grok-4,但平均使用大约少 40%的“思考”令牌。该公司将此界定为“智能密度”,声称在将较低的令牌计数与新的逐令牌定价结合后,达到与 Grok-4 相同基准性能时的价格下降约 98%。

六、部署与定价

该模型现已在 Grok 网页中通过 Fast 和 Auto 模式面向所有用户;Auto 模式时会在遇到困难请求时自动选择 Grok-4-Fast,以在不损失质量的前提下降低延迟。

对于开发者,xAI 暴露了 grok-4-fast-reasoning 和 grok-4-fast-non-reasoning 两个模型可通过 API 的方式调用,两者都支持 2M 的上下文窗口,但同样采用了现主流的定价策略:根据窗口大小指定不同的定价,一般来说,窗口越大,单价也就越高。

该模型在 xAI API 中的定价为:

  • 窗口 < 128k 时:
  • $0.20 / 1M input tokens(<128K);

  • $0.50 / 1M output tokens(<128K);

  • 窗口 ≥ 128k 时候:
  • $0.40 / 1M input tokens(≥128K);

  • $1.00 / 1M output tokens(≥128K);

  • 缓存定价:$0.05 / 1M cached input tokens。

七、AI大模型学习和面试资源

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

更多推荐