logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾边缘设备轻量化算子开发实战:内存占用减半的核心技术

摘要:本文针对昇腾边缘设备(如Atlas200DK)内存受限(8-16GB)的特点,提出基于CANN生态的轻量化算子优化方案。通过内存池复用、数据类型降级和分块加载三大技术,在保证性能损失<8%的前提下,实现内存占用降低30%-50%。具体包括:1)利用CANN原生接口实现中间张量复用;2)通过FP16/INT8量化降低非关键计算内存;3)采用流并行机制分块处理大尺寸数据。实验在Atlas200D

文章图片
昇腾 CANN 算子跨平台适配实战:Windows 与 Linux 无缝兼容方案

摘要:本文针对昇腾CANN算子在Windows/Linux跨平台适配中的核心痛点,提出了一套工程化解决方案。通过封装差异、统一接口的设计思路,开发了跨平台工具头文件(cross_platform.h),涵盖内存管理、线程调度、路径转换等关键功能;优化了设备管理模块,支持多设备切换和错误重试机制;并提供了工业级Add算子实现与健壮性增强的CMake编译脚本。方案经双平台实测验证,解决了编译器差异、内

文章图片
昇腾 CANN 动态 Shape 算子开发实战:兼容任意输入尺寸的技术方案

本文聚焦昇腾CANN算子开发中的动态Shape适配技术,针对实际场景中变长序列、多尺度图像等动态输入需求,提出完整的解决方案。文章首先分析了动态Shape算子的四大核心技术挑战:线程配置、内存管理、边界处理和性能稳定性。随后详细介绍了工程化实现方案,包括自适应线程调度、动态张量计算和模板化缓存策略。通过工具函数复用、动态坐标映射和边界防护等优化手段,确保算子在任意输入尺寸下保持高性能和稳定性。最后

文章图片
昇腾 CANN 算子异常处理实战:3 类冷门问题的根源排查与根治方案

本文针对昇腾CANN开发中的三大高频异常问题提供了系统性解决方案。在内存泄漏方面,通过valgrind-ascend工具链和线程块级防护措施,解决了长期运行导致的OOM问题;针对精度漂移问题,提出Kahan求和、混合精度等优化方案,并给出误差分级标准;对于设备异常场景,设计了包含CRC校验的断点续算机制。文章强调工程化防护的重要性,提供了可直接复用的代码模板和工具链使用方法,帮助开发者在云边端全场

文章图片
昇腾 CANN 算子框架融合实战:TensorFlow/PyTorch 无缝集成指南

本文详细介绍了如何将昇腾CANN自定义算子集成到TensorFlow和PyTorch框架中的完整流程。主要内容包括: 框架融合的核心价值:复用框架生态、降低开发成本、发挥硬件极致性能,性能较原生算子提升40%以上。 TensorFlow实现方案:通过四层封装(CANN核函数、TensorFlow OP类、OP注册、Python接口)实现端到端集成,重点讲解了形状推导、梯度注册和设备兼容等关键技术点

文章图片
#neo4j
CANN ai-smart-city 智慧城市 AI 适配工具深度解析:智慧城市的协同算力引擎

ai-smart-city 智慧城市 AI 适配工具通过智慧城市场景深度适配、模型加速优化、多部门协同等核心技术,解决了智慧城市 AI 应用的实时性与算力瓶颈,成为智慧城市的协同算力引擎。其低延迟、高鲁棒性、多部门协同的特点,使其能够适配公共安全、智能交通、环境监测等多种智慧城市场景,推动智慧城市技术的产业化落地。

CANN triton-inference-server-ge-backend 深度解析:跨框架推理的高效桥梁

TritonInferenceServer的GEBackend实现了CANN优化模型与主流推理框架的无缝对接。该组件采用三层架构设计,支持跨框架模型集成、高并发调度和性能无损传输,可将PyTorch/TensorFlow等框架模型经CANN优化后统一部署。GEBackend提供模型管理、动态批处理和多流并行等功能,通过标准流程实现OM模型加载和推理服务部署。典型应用包括云端多模型服务、高并发API

CANN driver 驱动层深度解析:NPU 硬件的底层使能核心

本文深入解析NPU驱动层的技术架构与核心功能。驱动层采用三层架构设计(用户态接口层-核心服务层-硬件抽象层),具备高效资源调度、低延迟指令执行和稳定硬件控制等核心能力。详细阐述了设备管理、内存管理、指令执行等核心模块的工作原理,并介绍了指令批处理、DMA传输优化等关键技术。该驱动层为AI训练、科学计算等场景提供底层支撑,能有效提升NPU硬件资源利用率,保障系统稳定性,是NPU算力发挥的关键使能组件

CANN cann-recipes-train 深度解析:大模型训练加速的工程化指南

摘要:CANN生态推出的cann-recipes-train训练加速指南针对大模型训练面临的高成本、长周期等挑战,提供了一套完整的工程化解决方案。该指南构建了五层实践体系,涵盖环境配置、模型适配、并行策略、优化调优和稳定性保障,通过混合并行、内存优化等技术组合,可将训练吞吐量提升2-5倍,周期缩短30%-60%。实践案例显示,GPT-3175B模型通过混合并行训练方案,实现了单卡内存降低46%、训

CANN opbase 算子基础框架深度解析:NPU 算子开发的标准化脚手架

本文介绍了CANN生态中的opbase算子基础框架,该框架通过标准化开发规范解决了NPU算子开发中的效率低、兼容性差和性能不稳定等问题。opbase采用三层架构设计(接口抽象层、核心框架层、硬件适配层),提供全生命周期管理、自动校验和内存管理等核心功能,显著降低开发门槛。文章通过矩阵乘法算子的代码示例展示了框架的实际应用,并阐述了其数据布局适配、内存复用等优化策略。该框架适用于通用算子开发、领域专

    共 84 条
  • 1
  • 2
  • 3
  • 9
  • 请选择