
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了一个简易倒序文本查看器的实现方案,适用于OpenHarmony教育、开发与趣味场景。该工具通过实时可视化字符串倒序过程,帮助用户直观理解编程概念、语言对称性等。核心功能采用Dart标准字符串处理方法(split-reversed-join),正确处理Unicode字符且无需复杂逻辑。界面设计简洁,包含文本输入框和实时结果显示区,实现"输入-变换-反馈"的即时闭环。该方

本文揭示了NPU设备驱动程序的底层实现细节。当开发者调用torch.randn(1024, 1024, device="npu")时,驱动会执行一系列复杂操作:首先通过PCIe枚举找到NPU设备,然后初始化HBM页表并分配物理内存,创建Stream上下文,最后提交DMA命令到硬件队列。文章详细介绍了PCIe设备枚举过程,包括扫描总线、读取配置空间、获取设备信息等关键步骤,以及HBM页表管理机制,采

本文揭示了NPU设备驱动程序的底层实现细节。当开发者调用torch.randn(1024, 1024, device="npu")时,驱动会执行一系列复杂操作:首先通过PCIe枚举找到NPU设备,然后初始化HBM页表并分配物理内存,创建Stream上下文,最后提交DMA命令到硬件队列。文章详细介绍了PCIe设备枚举过程,包括扫描总线、读取配置空间、获取设备信息等关键步骤,以及HBM页表管理机制,采

Ascend-Boost-Comm是华为昇腾平台的算子公共中间件,其核心Tiling引擎提供5种通用分块策略(Block/MatMul/FFT/SlidingWindow/Gather),实现50+算子仓库的复用。通过参数化ALG_CONFIG结构体,不同算子只需配置分块参数而无需重写分块逻辑。例如MatMulTiling策略被矩阵乘、GEMM和FlashAttention共同复用,通过自动推算最

Ascend-Boost-Comm是华为昇腾平台的算子公共中间件,其核心Tiling引擎提供5种通用分块策略(Block/MatMul/FFT/SlidingWindow/Gather),实现50+算子仓库的复用。通过参数化ALG_CONFIG结构体,不同算子只需配置分块参数而无需重写分块逻辑。例如MatMulTiling策略被矩阵乘、GEMM和FlashAttention共同复用,通过自动推算最

本文介绍了在Ascend 910 NPU上训练LLaMA-13B模型时的显存优化策略。当序列长度增加到8192时,激活显存需求翻倍至56GB,导致OOM。提出了梯度累积和Gradient Checkpoint两种方法:梯度累积通过将大batch拆分为micro-batch来减少单步激活量,同时减少通信开销;Gradient Checkpoint通过选择性存储激活和重计算来节省显存,但会增加25%计

本文介绍了在Ascend 910 NPU上训练LLaMA-13B模型时的显存优化策略。当序列长度增加到8192时,激活显存需求翻倍至56GB,导致OOM。提出了梯度累积和Gradient Checkpoint两种方法:梯度累积通过将大batch拆分为micro-batch来减少单步激活量,同时减少通信开销;Gradient Checkpoint通过选择性存储激活和重计算来节省显存,但会增加25%计

本文介绍了在Ascend 910 NPU上训练LLaMA-13B模型时的显存优化策略。当序列长度增加到8192时,激活显存需求翻倍至56GB,导致OOM。提出了梯度累积和Gradient Checkpoint两种方法:梯度累积通过将大batch拆分为micro-batch来减少单步激活量,同时减少通信开销;Gradient Checkpoint通过选择性存储激活和重计算来节省显存,但会增加25%计

信号处理核心算法:FIR滤波的NPU优化实现 摘要: 本文介绍了NPU上FIR滤波的两种高效实现方法。直接卷积法适用于短滤波器(M≤128),利用256个并行lane实现O(N×M)的滑动窗口计算,通过warp reduce快速归约。FFT卷积法则针对长滤波器(M>128),将时域卷积转为频域乘法,复杂度降为O(N log N)。系统采用自适应路由策略,根据滤波器阶数M和信号长度N自动选择最优算法

信号处理核心算法:FIR滤波的NPU优化实现 摘要: 本文介绍了NPU上FIR滤波的两种高效实现方法。直接卷积法适用于短滤波器(M≤128),利用256个并行lane实现O(N×M)的滑动窗口计算,通过warp reduce快速归约。FFT卷积法则针对长滤波器(M>128),将时域卷积转为频域乘法,复杂度降为O(N log N)。系统采用自适应路由策略,根据滤波器阶数M和信号长度N自动选择最优算法








