logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Catlass 模板库调试调优经验与踩坑记录

作为一名合格的开发者,除了需要具备优秀的代码编写能力,更需要具备强大的代码调试能力,假如你只会写代码,不懂的怎么样去调试代码,那肯定也是不行的,因为很多时候我们都是在调试BUG,而不是在写代码。作为开发者,我深深感受到 Catlass 作为一个强大的模板库,虽然上手确实有一定门槛,但一旦掌握了它的调试和调优方法,我就能充分释放昇腾 NPU 的澎湃算力。工欲善其事,必先利其器。各位开发者在做Catl

文章图片
#人工智能#昇腾
Triton-Ascend 算子开发经验谈:从入门到性能调优实战

由于 NPU 的计算通常是按 Block 进行的(比如 128、256),当数据总量 n_elements 不是 Block Size 的整数倍时,如果不加 mask,就会导致内存越界访问,程序直接 Crash。Ascend C 确实强大,它赋予了我们对硬件的极致控制权,但不可否认,它的上手门槛相对较高,需要开发者对 Tiling(切分)、流水线同步、内存管理有非常深刻的理解。但我相信,随着社区的

文章图片
#人工智能#昇腾
CANN Ascend C 编程语言深度解析:异构并行架构、显式存储层级与指令级精细化控制机制

在 CANN 异构计算架构中,实现高性能定制化算子依赖于对硬件微架构的直接、精细化控制。asc-devkit仓库定义的编程范式,正是为解决这一挑战而设计的领域特定语言(DSL)。它基于 C/C++ 语法,通过引入特殊的类型和内置函数,赋予开发者直接管理 AI Core 算力、DMA 引擎和片上内存(Unified Buffer, UB)的能力。

#c语言#架构#开发语言
CANN Ascend C 编程语言深度解析:异构并行架构、显式存储层级与指令级精细化控制机制

在 CANN 异构计算架构中,实现高性能定制化算子依赖于对硬件微架构的直接、精细化控制。asc-devkit仓库定义的编程范式,正是为解决这一挑战而设计的领域特定语言(DSL)。它基于 C/C++ 语法,通过引入特殊的类型和内置函数,赋予开发者直接管理 AI Core 算力、DMA 引擎和片上内存(Unified Buffer, UB)的能力。

#c语言#架构#开发语言
CANN Ascend C 编程语言深度解析:异构并行架构、显式存储层级与指令级精细化控制机制

在 CANN 异构计算架构中,实现高性能定制化算子依赖于对硬件微架构的直接、精细化控制。asc-devkit仓库定义的编程范式,正是为解决这一挑战而设计的领域特定语言(DSL)。它基于 C/C++ 语法,通过引入特殊的类型和内置函数,赋予开发者直接管理 AI Core 算力、DMA 引擎和片上内存(Unified Buffer, UB)的能力。

#c语言#架构#开发语言
CANN ascend-transformer-boost 深度解析:针对大模型的高性能融合算子库与算力优化机制

库是专为 Transformer 架构设计的高级加速层。它超越了通用算子组合,通过对硬件指令集、内存层级和 KV 缓存管理的深度定制,解决了 LLM 推理中和这两大核心瓶颈。

#transformer#深度学习#人工智能
CANN ascend-transformer-boost 深度解析:针对大模型的高性能融合算子库与算力优化机制

库是专为 Transformer 架构设计的高级加速层。它超越了通用算子组合,通过对硬件指令集、内存层级和 KV 缓存管理的深度定制,解决了 LLM 推理中和这两大核心瓶颈。

#transformer#深度学习#人工智能
CANN ascend-transformer-boost 深度解析:针对大模型的高性能融合算子库与算力优化机制

库是专为 Transformer 架构设计的高级加速层。它超越了通用算子组合,通过对硬件指令集、内存层级和 KV 缓存管理的深度定制,解决了 LLM 推理中和这两大核心瓶颈。

#transformer#深度学习#人工智能
CANN ascend-transformer-boost 架构解析:融合注意力算子管线、长序列分块策略与图引擎协同机制

在当前 AI 大模型快速迭代的背景下,Transformer 架构已成为算力消耗的主力军。其计算特征决定了模型执行效率高度依赖于底层存储层级的调度能力。作为计算平台推出的专项加速库,致力于打破原子算子间的执行边界,通过构建定制化的融合算子管线,解决长文本处理和高吞吐场景下的性能瓶颈。

#transformer#架构#深度学习
CANN ascend-transformer-boost 架构解析:融合注意力算子管线、长序列分块策略与图引擎协同机制

在当前 AI 大模型快速迭代的背景下,Transformer 架构已成为算力消耗的主力军。其计算特征决定了模型执行效率高度依赖于底层存储层级的调度能力。作为计算平台推出的专项加速库,致力于打破原子算子间的执行边界,通过构建定制化的融合算子管线,解决长文本处理和高吞吐场景下的性能瓶颈。

#transformer#架构#深度学习
    共 79 条
  • 1
  • 2
  • 3
  • 8
  • 请选择