
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:本文针对昇腾边缘设备(如Atlas200DK)内存受限(8-16GB)的特点,提出基于CANN生态的轻量化算子优化方案。通过内存池复用、数据类型降级和分块加载三大技术,在保证性能损失<8%的前提下,实现内存占用降低30%-50%。具体包括:1)利用CANN原生接口实现中间张量复用;2)通过FP16/INT8量化降低非关键计算内存;3)采用流并行机制分块处理大尺寸数据。实验在Atlas200D

摘要:本文针对昇腾CANN算子在Windows/Linux跨平台适配中的核心痛点,提出了一套工程化解决方案。通过封装差异、统一接口的设计思路,开发了跨平台工具头文件(cross_platform.h),涵盖内存管理、线程调度、路径转换等关键功能;优化了设备管理模块,支持多设备切换和错误重试机制;并提供了工业级Add算子实现与健壮性增强的CMake编译脚本。方案经双平台实测验证,解决了编译器差异、内

本文聚焦昇腾CANN算子开发中的动态Shape适配技术,针对实际场景中变长序列、多尺度图像等动态输入需求,提出完整的解决方案。文章首先分析了动态Shape算子的四大核心技术挑战:线程配置、内存管理、边界处理和性能稳定性。随后详细介绍了工程化实现方案,包括自适应线程调度、动态张量计算和模板化缓存策略。通过工具函数复用、动态坐标映射和边界防护等优化手段,确保算子在任意输入尺寸下保持高性能和稳定性。最后

本文针对昇腾CANN开发中的三大高频异常问题提供了系统性解决方案。在内存泄漏方面,通过valgrind-ascend工具链和线程块级防护措施,解决了长期运行导致的OOM问题;针对精度漂移问题,提出Kahan求和、混合精度等优化方案,并给出误差分级标准;对于设备异常场景,设计了包含CRC校验的断点续算机制。文章强调工程化防护的重要性,提供了可直接复用的代码模板和工具链使用方法,帮助开发者在云边端全场

本文详细介绍了如何将昇腾CANN自定义算子集成到TensorFlow和PyTorch框架中的完整流程。主要内容包括: 框架融合的核心价值:复用框架生态、降低开发成本、发挥硬件极致性能,性能较原生算子提升40%以上。 TensorFlow实现方案:通过四层封装(CANN核函数、TensorFlow OP类、OP注册、Python接口)实现端到端集成,重点讲解了形状推导、梯度注册和设备兼容等关键技术点

ai-smart-city 智慧城市 AI 适配工具通过智慧城市场景深度适配、模型加速优化、多部门协同等核心技术,解决了智慧城市 AI 应用的实时性与算力瓶颈,成为智慧城市的协同算力引擎。其低延迟、高鲁棒性、多部门协同的特点,使其能够适配公共安全、智能交通、环境监测等多种智慧城市场景,推动智慧城市技术的产业化落地。
TritonInferenceServer的GEBackend实现了CANN优化模型与主流推理框架的无缝对接。该组件采用三层架构设计,支持跨框架模型集成、高并发调度和性能无损传输,可将PyTorch/TensorFlow等框架模型经CANN优化后统一部署。GEBackend提供模型管理、动态批处理和多流并行等功能,通过标准流程实现OM模型加载和推理服务部署。典型应用包括云端多模型服务、高并发API
本文深入解析NPU驱动层的技术架构与核心功能。驱动层采用三层架构设计(用户态接口层-核心服务层-硬件抽象层),具备高效资源调度、低延迟指令执行和稳定硬件控制等核心能力。详细阐述了设备管理、内存管理、指令执行等核心模块的工作原理,并介绍了指令批处理、DMA传输优化等关键技术。该驱动层为AI训练、科学计算等场景提供底层支撑,能有效提升NPU硬件资源利用率,保障系统稳定性,是NPU算力发挥的关键使能组件
摘要:CANN生态推出的cann-recipes-train训练加速指南针对大模型训练面临的高成本、长周期等挑战,提供了一套完整的工程化解决方案。该指南构建了五层实践体系,涵盖环境配置、模型适配、并行策略、优化调优和稳定性保障,通过混合并行、内存优化等技术组合,可将训练吞吐量提升2-5倍,周期缩短30%-60%。实践案例显示,GPT-3175B模型通过混合并行训练方案,实现了单卡内存降低46%、训
本文介绍了CANN生态中的opbase算子基础框架,该框架通过标准化开发规范解决了NPU算子开发中的效率低、兼容性差和性能不稳定等问题。opbase采用三层架构设计(接口抽象层、核心框架层、硬件适配层),提供全生命周期管理、自动校验和内存管理等核心功能,显著降低开发门槛。文章通过矩阵乘法算子的代码示例展示了框架的实际应用,并阐述了其数据布局适配、内存复用等优化策略。该框架适用于通用算子开发、领域专







