2 的 n 次方_ 个人主页

@2202_76097976

2 的 n 次方_

2024-01-05 10:06:33 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Catlass 模板库调试调优经验与踩坑记录

作为一名合格的开发者，除了需要具备优秀的代码编写能力，更需要具备强大的代码调试能力，假如你只会写代码，不懂的怎么样去调试代码，那肯定也是不行的，因为很多时候我们都是在调试BUG，而不是在写代码。作为开发者，我深深感受到 Catlass 作为一个强大的模板库，虽然上手确实有一定门槛，但一旦掌握了它的调试和调优方法，我就能充分释放昇腾 NPU 的澎湃算力。工欲善其事，必先利其器。各位开发者在做Catl

#人工智能 #昇腾

Triton-Ascend 算子开发经验谈：从入门到性能调优实战

由于 NPU 的计算通常是按 Block 进行的（比如 128、256），当数据总量 n_elements 不是 Block Size 的整数倍时，如果不加 mask，就会导致内存越界访问，程序直接 Crash。Ascend C 确实强大，它赋予了我们对硬件的极致控制权，但不可否认，它的上手门槛相对较高，需要开发者对 Tiling（切分）、流水线同步、内存管理有非常深刻的理解。但我相信，随着社区的

#人工智能 #昇腾

CANN Ascend C 编程语言深度解析：异构并行架构、显式存储层级与指令级精细化控制机制

在 CANN 异构计算架构中，实现高性能定制化算子依赖于对硬件微架构的直接、精细化控制。asc-devkit仓库定义的编程范式，正是为解决这一挑战而设计的领域特定语言（DSL）。它基于 C/C++ 语法，通过引入特殊的类型和内置函数，赋予开发者直接管理 AI Core 算力、DMA 引擎和片上内存（Unified Buffer, UB）的能力。

#c语言 #架构 #开发语言

CANN Ascend C 编程语言深度解析：异构并行架构、显式存储层级与指令级精细化控制机制

#c语言 #架构 #开发语言

CANN Ascend C 编程语言深度解析：异构并行架构、显式存储层级与指令级精细化控制机制

#c语言 #架构 #开发语言

CANN ascend-transformer-boost 深度解析：针对大模型的高性能融合算子库与算力优化机制

库是专为 Transformer 架构设计的高级加速层。它超越了通用算子组合，通过对硬件指令集、内存层级和 KV 缓存管理的深度定制，解决了 LLM 推理中和这两大核心瓶颈。

#transformer #深度学习 #人工智能

CANN ascend-transformer-boost 深度解析：针对大模型的高性能融合算子库与算力优化机制

#transformer #深度学习 #人工智能

CANN ascend-transformer-boost 深度解析：针对大模型的高性能融合算子库与算力优化机制

#transformer #深度学习 #人工智能