logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Ascend C 算子开发(进阶)详细介绍及例题讲解

Ascend C 进阶开发聚焦昇腾 NPU 硬件特性深度挖掘与算子性能极致优化,核心目标是解决入门级开发中未覆盖的复杂场景(如超大张量运算、低延迟推理、多精度适配),通过 Tile 化编程、内存层级优化、并行策略设计等技术,让自定义算子性能逼近硬件理论上限,满足深度学习训练 / 推理中的高性能需求。报名链接:https://www.hiascend.com/developer/activities

#c语言#开发语言
《Ascend C 算子开发精要:内存管理、并行优化与性能工程实践》

Ascend C 算子开发入门:从基础到实战一、Ascend C 核心概念CANNP​ATHbinCANNP​ATHlib64// 核函数:执行张量加法(运行于NPU)extern “C”// 获取当前线程在NPU网格中的全局ID(用于定位数据索引)// 避免线程索引超出数据范围// 算子执行函数:封装核函数调用逻辑// 1. 获取张量数据指针(NPU设备端地址)2. 算子接口封装(add_op.

#c语言#人工智能#开发语言
昇腾 A1 入门课(PyTorch)全解析与实战精讲

definitinit()return xprint("\nMyReLU输出Tensor:\n", output_tensor)

#pytorch#c语言#python +2
昇腾AI全栈技术详解与实战指南

2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。· Ascend 910:训练芯片,算力达256TFLOPS@FP16。问题描述:实现高性能的矩阵乘法算子,支持大规模矩阵计算。问题描

#人工智能
Ascend C 算子开发(进阶)详细介绍及例题讲解

Ascend C 进阶开发聚焦昇腾 NPU 硬件特性深度挖掘与算子性能极致优化,核心目标是解决入门级开发中未覆盖的复杂场景(如超大张量运算、低延迟推理、多精度适配),通过 Tile 化编程、内存层级优化、并行策略设计等技术,让自定义算子性能逼近硬件理论上限,满足深度学习训练 / 推理中的高性能需求。报名链接:https://www.hiascend.com/developer/activities

#c语言#开发语言
昇腾AI硬核入门:处理器核心技术与CANN软件栈底层逻辑

definitinit()x = self.maxpool(x) # 输出:32×16×16x = self.maxpool(x) # 输出:64×8×8x = x.view(-1, 64 * 8 * 8) # 展平return x。

#人工智能
昇腾 A1 入门课(PyTorch)全解析与实战精讲

definitinit()return xprint("\nMyReLU输出Tensor:\n", output_tensor)

#pytorch#c语言#python +2
昇腾 A1 入门课(PyTorch)全解析与实战精讲

definitinit()return xprint("\nMyReLU输出Tensor:\n", output_tensor)

#pytorch#c语言#python +2
昇腾AI硬核入门:处理器核心技术与CANN软件栈底层逻辑

definitinit()x = self.maxpool(x) # 输出:32×16×16x = self.maxpool(x) # 输出:64×8×8x = x.view(-1, 64 * 8 * 8) # 展平return x。

#人工智能
昇腾AI硬核入门:处理器核心技术与CANN软件栈底层逻辑

definitinit()x = self.maxpool(x) # 输出:32×16×16x = self.maxpool(x) # 输出:64×8×8x = x.view(-1, 64 * 8 * 8) # 展平return x。

#人工智能
    共 14 条
  • 1
  • 2
  • 请选择