logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据搬运的基石:深入理解LocalTensor与DataCopy

上一篇文章,我们理清了GM、LM和Register的“三国演义”,知道了要把数据从全局内存(GM)搬到本地内存(LM)才能高效计算。太大,会挤占其他数据所需的LM空间,可能影响并发。开头和结尾的几个元素,与Host侧准备的输入数据进行比较,确保数据被完整、正确地搬运到了LM中。在训练营的下一课,我们将探索如何让数据搬运和计算“齐头并进”,那将是又一次性能的飞跃。的“码力全开特辑”中,我终于明白,我

#python#django
Tensor切分的艺术:以一维Copy算子理解Tiling概念

今天,就让我们从这个最简单的Copy算子出发,深入探索Tiling——这个贯穿所有Ascend C算子设计的核心概念。在CANN训练营里,当我还在为ReduceSum的多核优化绞尽脑汁时,导师却布置了一个看似"小儿科"的任务:“请实现一个一维Copy算子,把输入Tensor原封不动地复制到输出。在CANN训练营的后续课程中,无论是复杂的卷积神经网络算子,还是Transformer中的自注意力机制,

#python#django#算法 +2
Element-Wise算子模板:一套代码实现加、减、乘、除

在训练营的进阶课程中,我们将把这种思维应用到更复杂的场景:如何设计通用的Reduce模板、卷积模板、甚至自定义的融合算子模板。回想这次Element-Wise模板的实践,我完成的不仅仅是一套技术方案,更是一次编程思维的升级。它在Ascend C算子开发中的成功应用,证明了好的软件设计原则是跨领域、跨平台的。,像搭积木一样快速生成所有Element-Wise算子,体验从"工匠"到"架构师"的思维跃迁

#java#算法#开发语言
并行启动的奥秘:uint32_t blockDim参数到底怎么用?

我之前写的所有算子,无论是向量加还是复杂的运算,都只启动了一个核函数实例。在训练营接下来的课程中,我们将探索如何在每个核内部,让数据搬运和计算再次“并行”起来——这就是。征服了数据搬运的开发者。我不再只关心单核内部的流水线和寄存器优化,更要站在全局视角,思考任务的分解、负载的均衡、资源的分配。的“码力全开特辑”中,我花了整整一周时间与它“搏斗”,终于从迷惑到通透。它意味着我的编程思维,从关注“一个

#python#django
手把手实现ReLU:详解算子开发的标准化流程

在CANN训练营里,当我终于搞懂了多核、流水线这些“高级货”之后,导师却把我们拉回了起点:“现在,忘掉那些复杂的优化,我们从头开始,用最规范的方式,实现一个最简单的ReLU算子。在训练营的后续课程中,我们将基于这套标准流程,去征服Reduce、MatMul等更复杂的算子。“0基础入门系列”的指引,走完整个流程后,我才惊出一身冷汗:原来我之前写的算子,虽然能跑,但全是“野路子”,在工程化、可维护性上

#算法#python#django
高性能计算架构下的算子深度解析:ops-nn 库在低精度推理中的执行演进

ops-nn库是 CANN 框架中实现 INT8 量化推理的关键组件。其与 FP32 版本的实现差异,核心在于引入了对量化参数(Scale/ZeroPoint)的显式管理混合精度中间结果的处理,以及高效的再量化机制。架构师需要深入理解这些差异,才能在模型部署时,通过合理的算子融合和 Kernel 优化,充分释放昇腾 NPU 在 INT8 精度下的计算潜力,实现推理性能和精度的最佳平衡。要深入研究这

#cnn
异构算力调度的极简主义:hixl 驱动下的边缘侧资源抽象与治理架构

通过对的深度解读,我们可以看到昇腾在边缘计算上的技术匠心:通过解耦重型库依赖优化状态机上报以及精简资源调度路径,成功将原本为数据中心设计的复杂插件,改造为适配边缘侧的“轻量化利器”。对于开发者而言,深入理解CANN社区的这些底层实现,不仅有助于优化容器化部署的效率,更能为在边缘侧构建高性能 AI 应用提供坚实的底座支持。随着边缘计算需求的激增,仍在持续演进。未来,我们期待看到更多关于 KubeEd

#架构
高性能计算架构下的算子深度解析:ops-nn 库在低精度推理中的执行演进

ops-nn库是 CANN 框架中实现 INT8 量化推理的关键组件。其与 FP32 版本的实现差异,核心在于引入了对量化参数(Scale/ZeroPoint)的显式管理混合精度中间结果的处理,以及高效的再量化机制。架构师需要深入理解这些差异,才能在模型部署时,通过合理的算子融合和 Kernel 优化,充分释放昇腾 NPU 在 INT8 精度下的计算潜力,实现推理性能和精度的最佳平衡。要深入研究这

#cnn
CV 领域算子优化:ops-nn 在卷积神经网络中的极致加速

昇腾 CANN 提供的ops-nn仓库是构建高性能 CV 应用的基石。它不仅仅是一组算子的集合,更是昇腾硬件架构、TBE 编程模型以及深度学习算子优化经验的结晶。通过深入理解和利用ops-nn中对卷积、矩阵运算等核心 CV 算子的精细化优化,特别是其在算子融合、数据布局和多核并行调度方面的设计,我们能够最大限度地挖掘昇腾 AI 处理器在处理复杂视觉模型时的计算潜力。持续关注和贡献于CANN 组织中

#cnn#人工智能#神经网络
深度解析 ops-nn:算子库的核心架构与性能优化

ops-nn仓库是 CANN 体系中实现高性能深度学习算子的基石。它通过清晰的分层架构、对 TBE/CCE 的有效利用,以及对昇腾硬件特性的深度洞察,成功地将高层的 AI 需求转化为高效的底层执行代码。深入理解ops-nn的设计哲学,特别是其如何平衡抽象层与硬件效率,对于任何希望在昇腾平台上进行深度定制或性能调优的开发者而言,都是至关重要的。CANN 组织在 AtomGit 上的持续迭代,确保了算

#人工智能#缓存#架构
    共 47 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择