
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
SALS算法主要分为稀疏token选择与稀疏attention计算两部分,如下图所示:除去头部low rank预处理小算子,主要由QSI与SFAA两个融合算子组成:QSI稀疏token选择算子,通过query与low rank key cache计算出topk token索引位置;由于需要计算全序列空间,本身开销不可忽略,算法层面通过headdim低秩与低比特量化降低开销;SFAA。

为加速大模型算力释放,昇腾提供AOL(Ascend Operator Library)算子加速库,不仅覆盖Softmax、MatMul等基础算子,也包括了大模型结构泛化的Flash Attention等高性能融合算子,开发者可以直接使用昇腾内置的算子加速库使能大模型创新与应用。

随着DeepSeek系列模型的持续演进,昇腾也在不断探索推理预处理阶段中MLA的计算加速技术,通过VV融合(多个Vector算子融合),进一步提升MLA预处理阶段的计算效率。Q在经过RmsNorm后,进入Q升维矩阵做矩阵乘,升维后每个token变为128个Head,每个Head的HeadDim为192。DeepSeekV3火爆全球的同时,针对DeepSeek系列模型的计算优化思路也在不断探索泛化中

2023年12月,香橙派联合华为发布了基于昇腾的Orange Pi AIpro开发板,提供8/20TOPS澎湃算力,能覆盖生态开发板者的主流应用场景,让用户实践各种创新场景,并为其提供配套的软硬件。香橙派AIpro开发板一经发布便吸引了众多AI创客们的购买和体验,这款开发版到底长什么样?到底有哪些优势?具体开放了哪些外设接口?搭载昇腾AI处理器后跑AI推理性能咋样...

如何充分利用Cube单元的能力,是算子开发的关键课题。下一代Ascend平台的Cube矩阵计算单元进一步增强了计算能力,支持更丰富的数据类型(如MX FP4/MX FP8),更多的数据通路(如UB 到L1 Buffer,L0C Buffer到UB),为大模型训练和推理提供了更强大的算力支撑。下一代Ascend平台引入了SIMT(单指令多线程)编程能力,在SIMT编程模型下,开发者可以像业界通用的S

CANN算子的"手工作坊"如何突围?当手写内核、反复调试、性能问题定位等成为效率瓶颈,AI开发正从"匠人单打独斗"迈向“智能工业化”。大模型时代更需注重算子的高效开发与快速定制,构建AI辅助的开发流水线。 本期直播将带你揭秘CANNBot智能体在CANN算子的设计、开发、测试效率优化等领域全面革新,使用多种Skills技能、Teams工作流,快速完成高性能昇

作为昇腾AI的核心软件平台, CANN持续深化开源开放战略,将核心软件能力全面向社区开放,构建起社区共建共治的发展模式,大幅降低开发者在昇腾硬件上的开发门槛,让每一位开发者都能基于昇腾AI释放创新潜能。任旭东指出,未来十年将是“智能体的十年”,而支撑这一变革的关键,正是以CANN为代表的AI算力基座。演讲尾声,任旭东强调:“生态是一场真正的无限游戏。”CANN通过持续的开源贡献、技术赋能与生态共建
CANNBot TileLang 算子开发实操

CANNBot PyPTO 算子开发实操

CANNBot ASC 算子开发实操








