5倍的移动端侧智能助手、语音翻译性能提升!

2倍的移动游戏光线追踪性能提升!

……

对,你没看错。在9月10日举行的Arm Unlocked 2025AI技术峰会上,伴随着全新Arm Lumex计算子系统(Compute Subsystem,CSS) 平台的发布,是这一连串的炸裂数字,是Arm Lumex CSS这把为客户和合作伙伴在AI时代打造的杀手锏。

之所以Arm Lumex CSS这么能打,因为它“不是一个人在战斗”,而是一个平台、一套组合拳。

据Arm高级副总裁兼终端事业部总经理Chris Bergey介绍,Arm Lumex CSS的核心组件主要包括Arm C1 CPU集群、Mali G1-Ulra GPU以及系统IP,满足旗舰移动设备和PC上持续增长的端侧 AI 体验需求。接下来我们一起来揭秘Arm Lumex CSS能打之谜。

Arm高级副总裁兼终端事业部总经理Chris Bergey

CPU:端侧 AI 性能的核心引擎

在端侧AI计算领域,CPU始终是“通用计算的基石”,而Arm Lumex CSS平台搭载的全新Arm C1 CPU集群,更是将这一基石升级为“AI优先”的性能引擎。作为首个基于Armv9.3架构的CPU系列,C1集群通过硬件级创新与软件生态协同,不仅实现了五倍AI性能跃升,更打破了“高性能必高功耗”的行业困局,为移动端从日常交互到复杂生成式AI任务提供了全方位算力支撑。

Arm终端事业部产品管理总监Ronan Naughton

硬件创新:SME2技术重构AI计算逻辑

C1 CPU集群的核心突破,在于全面集成第二代可伸缩矩阵扩展(SME2)技术。与传统CPU依赖通用指令处理AI任务不同,SME2通过硬件级矩阵运算单元,直接针对大语言模型(LLM)、语音识别、计算机视觉等AI核心工作负载优化。这种“硬件原生加速”设计,使得C1 CPU集群在处理矩阵乘法等关键AI运算时,无需依赖软件模拟或外部加速器,从而避免了数据在CPU与NPU/GPU间传输的延迟损耗。

在实际场景中,SME2的性能提升尤为显著。例如,在支付宝与vivo合作的大语言模型推理验证中,基于SME2技术的C1 CPU在预填充阶段性能提升超40%,解码阶段提升25%,将端侧LLM交互响应时间缩短近半;在Stability AI的音频生成测试中,C1集群能在9.7秒内生成11秒的高质量音频,速度较上一代提升2.8倍,且全程保持低功耗运行。更值得关注的是,SME2并非孤立的“AI专用模块”,而是与Armv9架构的SVE2向量扩展深度协同,既能高效处理AI任务,又能兼顾游戏、视频渲染等通用计算场景,实现“一核多能”。

全层级产品矩阵:从旗舰到穿戴设备的无缝覆盖

为满足不同设备的性能与能效需求,C1 CPU系列构建了覆盖“旗舰-次旗舰-主流-穿戴”的全层级产品矩阵,每个核心型号均针对特定场景优化,形成 “性能与能效的精准匹配”。

这种“全层级覆盖”策略,使得 Arm合作伙伴无需为不同设备重新设计CPU架构,只需通过核心组合灵活配置,极大缩短了产品研发周期。

实际场景验证:从基准测试到用户体验的全面跃升

C1 CPU集群的性能优势并非停留在实验室数据,而是在实际应用中实现“用户可感知的体验提升”。在行业基准测试中,C1集群在六项主流性能测试中平均提升30%,游戏、视频流媒体等应用平均提速15%;在日常工作负载中,视频播放、社交媒体、网页浏览等场景功耗平均降低12%,直接转化为设备续航的延长。

GPU:桌面级游戏与AI推理的双重突破

在移动设备中,GPU不仅是游戏体验的核心,更是端侧 AI 推理的重要支撑。Arm Lumex CSS平台搭载的全新Mali G1-Ultra GPU,通过新一代光线追踪技术RTUv2、AI加速架构与能效优化,重新定义了移动端GPU的“性能天花板”,实现“桌面级游戏体验”与“高效AI推理” 的双重突破。

Arm终端事业部产品管理副总裁James McNiven

光线追踪革命:RTUv2 技术带来主机级视觉效果

随着《原神》《崩坏:星穹铁道》等3A手游对画质要求的提升,移动端光线追踪已从“可选特性”变为“旗舰标配”。Mali G1-Ultra 搭载的第二代光线追踪单元(RTUv2),通过架构革新将光线追踪性能提升2倍,彻底解决了上一代RTUv1在非一致性光线处理上的效率瓶颈。

RTUv2的核心改进在于“单光线模型”与“独立电源域”设计。与RTUv1的“打包光线处理”不同,RTUv2可单独处理每条光线,对游戏中复杂的动态光照、反射场景(如水面倒影、金属光泽)的处理精度大幅提升,同时减少光线遮挡导致的性能浪费。在Arm内部测试中,运行《Mori 林间鼯语》等支持硬件光追的游戏时,Mali G1-Ultra帧率可达37.5 FPS,较上一代Immortalis-G925提升40%,且画面质量达到“硬件光追全高”级别,远超软件模拟光追的效果。

此外,RTUv2的独立电源域设计使其能在空闲时自动断电,避免无效功耗。例如,在游戏中无光线追踪场景时,RTUv2可关闭电源,为GPU其他模块节省电力,这种“按需供电”策略使Mali G1-Ultra每帧能耗降低9%,在长时间游戏中优势尤为明显。以《原神》为例,搭载Mali G1-Ultra的手机可连续游戏4小时以上,较上一代设备续航延长15%。

AI推理加速:FP16指令与架构优化的协同增效

除了图形性能,Mali G1-Ultra在AI推理领域同样表现突出。通过新增FP16矩阵乘法单元(MMUL)指令,Mali G1-Ultra针对AI工作负载的并行计算特性优化,在语义分割、图像增强、深度估计等任务中性能提升显著。与上一代Immortalis-G925相比,Mali G1-Ultra的AI推理速度提升20%,其中语义分割任务性能提升高达104%,足以支撑端侧实时图像分割、AI滤镜等应用。

在硬件架构上,Mali G1-Ultra通过扩大L2缓存、优化片上互连(NoC)设计,减少AI数据在内存与GPU间的传输延迟。这种“图形与AI协同优化”的设计,使得移动端设备能同时运行高画质游戏与AI辅助功能。例如,在《堡垒之夜》中,Mali G1-Ultra可一边渲染光追画面,一边通过AI实时优化画质细节,实现“视觉效果与性能的双赢”。

可扩展与开发者友好:从旗舰到主流的全面覆盖

与CPU集群类似,Mali G1系列同样构建了可扩展的产品矩阵,包括G1-Ultra、G1-Premium、G1-Pro,支持1-24个着色器核心配置,满足从旗舰手机到入门级设备的需求。例如,G1-Pro针对硬件资源受限的设备优化,且功耗更低,适合中端手机;G1-Premium则平衡性能与能效,是平板、Chromebook等设备的理想选择。

为帮助开发者充分发挥GPU性能,Arm还推出了一系列工具与技术支持。例如,Mali G1-Ultra支持Vulkan DXR光线追踪标准,与Unreal Engine、Unity等主流游戏引擎深度集成,《堡垒之夜》《原神》等大作已基于该技术实现移动端光追效果;新增的“基于块的硬件计数器”功能,能让开发者逐帧分析GPU各区域的性能热点,精准优化游戏画质与帧率。此外,Arm的精锐超级分辨率技术(ASR)已集成至虚幻引擎5,通过AI驱动的时域类超分算法,在降低GPU负载的同时提升图像质量,使中端设备也能流畅运行高分辨率游戏。

除了CPU和GPU的计算IP迭代,Arm Lumex CSS还在互连和内存架构层面引入了众多系统IP升级。Arm推出新的可扩展系统互连,专为满足高要求AI和其他计算密集型工作负载的带宽与延迟需求而优化,可确保在Lumex上保持性能领先,同时不影响系统响应速度。新的SI L1系统互连配备业内先进的,且具有出色面积效率的系统级缓存 (SLC) ,相比标准编译的 RAM,其泄漏功耗降低了 71%,大幅减少了待机功耗。此外,新一代Arm MMU L1系统内存管理单元,可在各类手机及消费类电子设备上实现安全,且成本高效的可扩展虚拟化。

KleidiAI软件栈能力:开发者生态的“加速器”

如果说计算IP(CPU、GPU)、系统IP(可扩展系统互连、SI L1、MMU L1)是Arm Lumex CSS平台的“硬件骨架”,那么KleidiAI软件栈就是“连接硬件与应用的神经中枢”。作为Arm专为端侧AI打造的软件解决方案,KleidiAI通过“框架原生集成+工具链简化+跨平台兼容”,彻底解决了移动端AI开发的“碎片化”痛点,让开发者无需深入硬件细节,即可轻松调用Lumex平台的AI性能优势。

主流框架全覆盖:从开发到部署的“零代码适配”

KleidiAI的核心优势在于与全球主流AI框架、操作系统的深度集成,形成“开箱即用”的AI加速能力。目前,KleidiAI已全面支持PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN、微软ONNX Runtime等顶级AI框架,以及Android、Windows等操作系统,开发者无需修改代码,即可通过这些框架自动调用SME2、GPU加速能力。

例如,在安卓平台上,KleidiAI通过集成至Google XNNPACK运行时,为数千款安卓应用提供AI加速。当开发者使用TensorFlow Lite训练模型后,只需通过LiteRT部署,KleidiAI会自动识别设备是否支持SME2,并优化模型执行路径,使应用在Lumex设备上的AI推理速度提升。在Windows平台上,KleidiAI与ONNX Runtime深度协同,为Microsoft 365 Copilot、Phi-3等AI应用提供加速,使Arm架构的Windows设备在AI任务上的表现媲美x86平台。

这种“框架原生集成”不仅降低了开发门槛,更保证了AI模型的“跨设备兼容性”。例如,阿里巴巴MNN框架基于KleidiAI优化后,可在支持SME2的旗舰手机与不支持SME2的中端设备上无缝运行,自动适配硬件能力;Meta的Llama.cpp模型通过KleidiAI适配后,既能在Lumex的C1 CPU上实现高性能推理,也能在传统Arm设备上正常运行,避免了“为单一硬件重构模型”的成本。

工具链与预硅支持:加速产品上市周期

为帮助开发者在硬件量产前提前适配,Arm提供了完整的“预硅验证 + 性能调优”工具链,包括预硅参考平台、自顶向下的遥测工具、性能分析套件等,使开发者能在Lumex芯片流片前,即可基于模拟环境开发、测试AI应用。

例如,Arm的预硅参考平台可模拟C1 CPU、Mali G1-Ultra的硬件行为,开发者通过该平台可提前验证SME2对模型的加速效果,调整算法参数;遥测工具则能实时分析应用在CPU、GPU上的性能瓶颈,例如识别AI推理中的内存带宽瓶颈、计算热点,帮助开发者优化模型结构或代码逻辑。在Google的测试中,基于KleidiAI的预硅工具链,开发者将Gmail的邮件摘要AI功能适配Lumex平台的时间缩短了40%,大幅加快了产品上市节奏。

此外,Arm还提供免费的KleidiAI软件库,包含丰富的AI模型示例、优化后的算子库,覆盖图像分类、语音识别、生成式AI等场景。例如,开发者可直接基于KleidiAI提供的Whisper Base模型示例,快速实现端侧实时语音转文字功能,且性能已针对SME2优化,无需自行调优。

生态伙伴协同:从技术验证到商业落地的“闭环”

KleidiAI的成功离不开Arm与全球生态伙伴的深度合作,这种“协同创新”已形成从技术验证到商业落地的完整闭环。目前,苹果、三星、MediaTek、支付宝、腾讯等科技巨头均已基于KleidiAI开展合作,推动端侧AI应用的规模化落地。

例如,苹果通过KleidiAI优化其“Apple Intelligence”功能,使iPhone在Lumex平台上的AI推理速度提升3倍,支撑实时翻译、照片智能编辑等场景;三星则基于KleidiAI与Google Gemini合作,提升手机端翻译、摘要等AI应用的响应速度;腾讯的混元大模型通过KleidiAI适配SME2后,端侧推理性能提升显著,可在手机上实现实时问答、内容生成等功能。

这些合作不仅验证了KleidiAI的技术价值,更推动了端侧AI生态的标准化。例如,Arm与阿里巴巴共同制定的“移动端大模型量化推理标准”,基于KleidiAI实现了通义千问等十亿参数级模型的低延迟运行,为行业提供了“大模型端侧部署”的参考方案。

Arm Lumex:AI时代移动端计算的“新基准”

Arm Lumex CSS平台的“能打”,并非源于单一硬件的性能跃升,而是“CPU+GPU+软件栈”的深度协同,以及“硬件创新-生态适配-场景落地”的完整闭环。从技术层面看,Lumex通过SME2、RTUv2等硬件原生加速技术,解决了端侧AI的“性能与能效”核心矛盾;通过全层级产品矩阵,实现从旗舰到穿戴设备的无缝覆盖;通过KleidiAI软件栈,打破了“硬件碎片化”的开发壁垒,让AI能力真正“落地到应用”。

从行业价值看,Lumex CSS平台重新定义了移动端计算的“基准”:它不再是“单纯追求参数提升”,而是以“用户体验为核心”,将AI性能转化为“实时响应的智能助手”“桌面级的游戏画质”“长续航的设备体验”等可感知的价值。例如,当用户在暗光环境下用手机拍照时,Lumex的C1 CPU能实时处理降噪算法,Mali GPU优化图像渲染,KleidiAI确保软件流畅运行,三者协同实现“按下快门即得清晰照片”的体验——这种“软硬件一体的优化”,正是Lumex平台区别于传统计算方案的核心竞争力。

展望未来,随着端侧AI从“单一功能”向“多模态智能助手”演进,Lumex CSS平台的“可扩展性”将进一步凸显。一方面,SME2与GPU的AI加速能力可支撑更复杂的多模态模型(如图文生成、语音交互);另一方面,KleidiAI的跨平台特性将推动AI应用在手机、PC、穿戴设备间无缝流转。正如Arm高级副总裁兼终端事业部总经理Chris Bergey所言:“Lumex不仅是一个硬件平台,更是开启AI时代移动创新的起点。”

对于Arm的合作伙伴而言,Lumex CSS平台提供了“快速切入AI市场”的利器——无需从过于关注底层架构,无需解决复杂的软件适配问题,只需基于Lumex的模块化设计,即可快速推出差异化的AI设备;对于开发者而言,KleidiAI的“零代码适配”降低了AI开发门槛,使更多创新应用能落地端侧;对于用户而言,Lumex带来的“更智能、更高效、更个性化”的设备体验,将成为AI时代移动端的“新标准”。

在AI驱动的移动计算新时代,Arm Lumex CSS平台无疑是“行业的催化剂”——它不仅为Arm生态伙伴提供了技术红利,更推动整个移动端计算从“通用性能竞争”转向“AI体验竞争”,为消费者带来真正有价值的智能设备体验。

Logo

加入「COC·上海城市开发者社区」,成就更好的自己!

更多推荐