logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

内存复用:GE 的显存优化算法实现

对计算图中每个张量TiT_iTi​,定义其活跃区间siei[s_i, e_i]si​ei​sis_isi​:首次被生产(算子输出)的时间步;eie_iei​:最后一次被消费(算子输入)的时间步。内存复用是深度学习系统优化的“隐形冠军”。GE通过精密的生命周期分析与智能内存池分配,在不牺牲计算正确性的前提下,将内存效率推向极致。在 AI 模型日益庞大的今天,掌握内存复用技术,意味着你能在有限的硬件上

#算法
注意力机制:ops-nn 的 Self-Attention 算子实现

input,...内部自动广播并应用。Self-Attention 是 AI 模型能力跃升的关键,但其On2O(n^2)On2复杂度也带来了严峻的工程挑战。ops-nn通过算子融合、分块计算、内存复用与向量化,在通用 CPU/GPU 上实现了高效、稳定的注意力计算。无论是构建大语言模型、视觉 Transformer 还是语音识别系统,理解并善用此类优化算子,都是释放模型潜力的必经之路。正如 Tra

#人工智能#架构#neo4j
注意力机制:ops-nn 的 Self-Attention 算子实现

input,...内部自动广播并应用。Self-Attention 是 AI 模型能力跃升的关键,但其On2O(n^2)On2复杂度也带来了严峻的工程挑战。ops-nn通过算子融合、分块计算、内存复用与向量化,在通用 CPU/GPU 上实现了高效、稳定的注意力计算。无论是构建大语言模型、视觉 Transformer 还是语音识别系统,理解并善用此类优化算子,都是释放模型潜力的必经之路。正如 Tra

#人工智能#架构#neo4j
归一化算子:ops-nn 的 BatchNorm/LayerNorm 优化

归一化算子虽小,却是深度学习基础设施的关键一环。ops-nn通过精妙的算法设计与工程优化,将这一看似简单的操作推向性能极致。掌握这些优化技术,不仅能提升模型效率,更能培养数据布局与计算协同设计的思维——这是高性能 AI 系统的核心能力。随着模型规模持续增长,对基础算子效率的要求只会更高。理解归一化优化,就是掌握 AI 加速的底层密码。📚深入探索 ops-nn 源码与优化细节CANN 开源组织op

文章图片
#人工智能#科技
归一化算子:ops-nn 的 BatchNorm/LayerNorm 优化

归一化算子虽小,却是深度学习基础设施的关键一环。ops-nn通过精妙的算法设计与工程优化,将这一看似简单的操作推向性能极致。掌握这些优化技术,不仅能提升模型效率,更能培养数据布局与计算协同设计的思维——这是高性能 AI 系统的核心能力。随着模型规模持续增长,对基础算子效率的要求只会更高。理解归一化优化,就是掌握 AI 加速的底层密码。📚深入探索 ops-nn 源码与优化细节CANN 开源组织op

文章图片
#人工智能#科技
激活函数集合:ops-nn 的 ReLU/GELU/Swish 实现

+i) {⚠️问题if分支导致 CPU/GPU 流水线预测失败,性能低下。Swishxx⋅σβxx1e−βxSwishxx⋅σβx1e−βxx​其中β\betaβ通常为 1。包含指数函数exp,计算昂贵。激活函数虽小,却是高性能 AI 系统的关键一环。ops-nn通过向量化、无分支、超越函数逼近。

文章图片
#机器学习#矩阵#人工智能
图编译优化:ge 的计算图优化技术详解

CANN 的量化训练工具链,让开发者能在昇腾平台上轻松实现高精度低比特推理。通过 QAT + ATC 的组合,你可以在几乎不损失精度的前提下,获得数倍性能提升与显著成本降低。无论你是开发边缘设备、数据中心还是端侧应用,量化都是不可或缺的优化手段。📚立即实践CANN 开源组织ops-nn 仓库地址在ops-nn中,你将找到QAT 模板、混合精度配置、ATC 转换脚本、精度验证工具,助你快速构建高性

文章图片
#人工智能#深度学习#机器学习
图编译优化:ge 的计算图优化技术详解

CANN 的量化训练工具链,让开发者能在昇腾平台上轻松实现高精度低比特推理。通过 QAT + ATC 的组合,你可以在几乎不损失精度的前提下,获得数倍性能提升与显著成本降低。无论你是开发边缘设备、数据中心还是端侧应用,量化都是不可或缺的优化手段。📚立即实践CANN 开源组织ops-nn 仓库地址在ops-nn中,你将找到QAT 模板、混合精度配置、ATC 转换脚本、精度验证工具,助你快速构建高性

文章图片
#人工智能#深度学习#机器学习
图编译优化:ge 的计算图优化技术详解

CANN 的量化训练工具链,让开发者能在昇腾平台上轻松实现高精度低比特推理。通过 QAT + ATC 的组合,你可以在几乎不损失精度的前提下,获得数倍性能提升与显著成本降低。无论你是开发边缘设备、数据中心还是端侧应用,量化都是不可或缺的优化手段。📚立即实践CANN 开源组织ops-nn 仓库地址在ops-nn中,你将找到QAT 模板、混合精度配置、ATC 转换脚本、精度验证工具,助你快速构建高性

文章图片
#人工智能#深度学习#机器学习
从 CUTLASS 到 Catlass:设计理念对比

CANN 在AI 集群上的分布式训练优化,是一套软硬协同、多层次联动的系统工程。从底层的 HCCL 通信库,到高层的自动并行策略,CANN 正不断降低大模型训练门槛,推动国产 AI 生态走向成熟。未来,随着等智能编码模型的集成,开发者甚至可通过自然语言描述训练需求,由 CANN 自动生成最优分布式策略——这正是我们期待的“AI for AI Infrastructure”。🔗相关链接。

文章图片
#人工智能#分布式
    共 76 条
  • 1
  • 2
  • 3
  • 8
  • 请选择