杀马特l 个人主页

@2401_84813926

杀马特l

2025-02-12 09:20:23 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

内存复用：GE 的显存优化算法实现

对计算图中每个张量TiT_iTi，定义其活跃区间siei[s_i, e_i]sieisis_isi：首次被生产（算子输出）的时间步；eie_iei：最后一次被消费（算子输入）的时间步。内存复用是深度学习系统优化的“隐形冠军”。GE通过精密的生命周期分析与智能内存池分配，在不牺牲计算正确性的前提下，将内存效率推向极致。在 AI 模型日益庞大的今天，掌握内存复用技术，意味着你能在有限的硬件上

#算法

注意力机制：ops-nn 的 Self-Attention 算子实现

input,...内部自动广播并应用。Self-Attention 是 AI 模型能力跃升的关键，但其On2O(n^2)On2复杂度也带来了严峻的工程挑战。ops-nn通过算子融合、分块计算、内存复用与向量化，在通用 CPU/GPU 上实现了高效、稳定的注意力计算。无论是构建大语言模型、视觉 Transformer 还是语音识别系统，理解并善用此类优化算子，都是释放模型潜力的必经之路。正如 Tra

#人工智能 #架构 #neo4j

注意力机制：ops-nn 的 Self-Attention 算子实现

#人工智能 #架构 #neo4j

归一化算子：ops-nn 的 BatchNorm/LayerNorm 优化

归一化算子虽小，却是深度学习基础设施的关键一环。ops-nn通过精妙的算法设计与工程优化，将这一看似简单的操作推向性能极致。掌握这些优化技术，不仅能提升模型效率，更能培养数据布局与计算协同设计的思维——这是高性能 AI 系统的核心能力。随着模型规模持续增长，对基础算子效率的要求只会更高。理解归一化优化，就是掌握 AI 加速的底层密码。📚深入探索 ops-nn 源码与优化细节CANN 开源组织op

#人工智能 #科技

归一化算子：ops-nn 的 BatchNorm/LayerNorm 优化

#人工智能 #科技

激活函数集合：ops-nn 的 ReLU/GELU/Swish 实现

+i) {⚠️问题if分支导致 CPU/GPU 流水线预测失败，性能低下。Swishxx⋅σβxx1e−βxSwishxx⋅σβx1e−βxx其中β\betaβ通常为 1。包含指数函数exp，计算昂贵。激活函数虽小，却是高性能 AI 系统的关键一环。ops-nn通过向量化、无分支、超越函数逼近。

#机器学习 #矩阵 #人工智能

图编译优化：ge 的计算图优化技术详解

CANN 的量化训练工具链，让开发者能在昇腾平台上轻松实现高精度低比特推理。通过 QAT + ATC 的组合，你可以在几乎不损失精度的前提下，获得数倍性能提升与显著成本降低。无论你是开发边缘设备、数据中心还是端侧应用，量化都是不可或缺的优化手段。📚立即实践CANN 开源组织ops-nn 仓库地址在ops-nn中，你将找到QAT 模板、混合精度配置、ATC 转换脚本、精度验证工具，助你快速构建高性

从 CUTLASS 到 Catlass：设计理念对比

CANN 在AI 集群上的分布式训练优化，是一套软硬协同、多层次联动的系统工程。从底层的 HCCL 通信库，到高层的自动并行策略，CANN 正不断降低大模型训练门槛，推动国产 AI 生态走向成熟。未来，随着等智能编码模型的集成，开发者甚至可通过自然语言描述训练需求，由 CANN 自动生成最优分布式策略——这正是我们期待的“AI for AI Infrastructure”。🔗相关链接。

#人工智能 #分布式

共 76 条

请选择