
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Vector MACDMA 搬移这些接口封装了寄存器分配、指令排队、标志位处理等细节。pto-isa 库是 CANN 生态中唯一面向ISA 级可控编程 的底层工具,它让开发者得以在保持一定生产效率的同时,直接对话 AI Core 的硬件指令集,实现通用库无法触及的性能极限。与catlass 的模板化、asc-devkit 的低代码开发形成互补,pto-isa 为“极致性能调优”与“新硬件特性
Vector MACDMA 搬移这些接口封装了寄存器分配、指令排队、标志位处理等细节。pto-isa 库是 CANN 生态中唯一面向ISA 级可控编程 的底层工具,它让开发者得以在保持一定生产效率的同时,直接对话 AI Core 的硬件指令集,实现通用库无法触及的性能极限。与catlass 的模板化、asc-devkit 的低代码开发形成互补,pto-isa 为“极致性能调优”与“新硬件特性
目标:用结构化配置描述推理部署的“原料”与“工序”,支持 YAML/JSON 格式定义。# 示例:ResNet50 云端高吞吐配方(resnet50_high_throughput.yaml)recipe:scenario: "cloud_high_qps" # 场景标签:云端高吞吐model:source: "resnet50.onnx" # 输入模型(ONNX 格式)target: "resn
提供强类型的元数据模式语言下面展示如何用 metadef 定义自定义算子元数据,并在 GE 编译阶段查询其属性。# 创建 FusedGELU 算子元数据inputs=[],outputs=[],},# 注册到全局仓库metadef 库是 CANN 生态的“语义基石”,它通过统一、标准化的元数据管理,打破了工具链间的信息壁垒,让算子、模型、硬件的特性能够被全局感知与智能利用。
定义 JIT 编译的自定义矩阵乘算子(带偏置)@pt.jit# 矩阵乘:C = a @ b# 加偏置(广播)# 测试数据(FP16,形状 [64, 128] @ [128, 256] + [256])# 执行自定义算子(首次调用触发编译,后续直接运行)print(f"结果形状:{result.shape},数据类型:{result.dtype}") # (64, 256), float16pypt
operator:inputs:outputs:compute:# GELU 近似公式:0.5x(1 + tanh(√(2/π)(x + 0.044715x³)))asc-devkit 是 CANN 生态中“算子开发民主化” 的关键推手——它将复杂的底层工程细节封装为可视化工具与自动化流程,让开发者从“硬件适配”中解放出来,聚焦算法创新。对于需要快速迭代自定义算子的团队(如科研机构、AI 初创公
operator:inputs:outputs:compute:# GELU 近似公式:0.5x(1 + tanh(√(2/π)(x + 0.044715x³)))asc-devkit 是 CANN 生态中“算子开发民主化” 的关键推手——它将复杂的底层工程细节封装为可视化工具与自动化流程,让开发者从“硬件适配”中解放出来,聚焦算法创新。对于需要快速迭代自定义算子的团队(如科研机构、AI 初创公
ops-transformer 库是 CANN 生态中“模型架构感知优化” 的典范——它不仅提供了高性能算子,更通过“理解 Transformer 计算模式”实现了从“算子级优化”到“计算范式级优化”的跨越。无需成为硬件专家,只需使用 ops-transformer 的原生算子,即可让 Transformer 模型在 CANN 上获得媲美手工优化的性能。
catlass 是 CANN 面向底层开发者的“性能神器”,它以模板化 + 构件化 的方式,把硬件特性转化为可编程的优化空间,让开发者既能保持高效开发,又能逼近硬件的理论峰值性能。与 ops-math 的易用性、hixl 的跨语言协作、GE 的图优化形成互补,catlass 在 CANN 生态中承担了“算子性能天花板” 的角色。
GE 库是 CANN 生态中“模型翻译”与“性能优化”的核心枢纽,它通过静态图优化与动态执行调度的结合,让深度学习模型在 CANN 硬件上实现了“既快又稳”的执行。只需关注模型本身的算法逻辑,无需成为“硬件优化专家”,就能让模型在 CANN 上发挥极致性能。未来,随着大模型(如千亿参数 LLM)与稀疏计算、量化技术的普及,GE 库将进一步强化对动态图、稀疏算子融合、低精度计算的支持,成为 AI 计







