logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN生态安全保障:cann-security-module的身份认证

本文介绍了CANN生态系统中cann-security-module的身份认证功能,重点分析了密码认证和令牌认证两种主要认证方法。在密码认证方面,通过盐值生成、密码哈希计算和用户数据库管理实现安全认证;令牌认证则通过随机令牌生成、有效期管理和令牌数据库验证确保访问安全。这些认证机制共同构成了CANN生态的安全保障体系,为AI应用提供了可靠的身份验证和访问控制基础。文章还提供了相关CANN组织链接和

#安全
CANN生态新视角:acl-adapter的内存管理机制

本文深入解析了CANN生态中acl-adapter的内存管理机制。针对AI应用面临的大内存需求、碎片化、访问效率和跨设备传输等挑战,acl-adapter通过内存池技术和分级管理实现了高效内存分配。内存池机制通过预分配和复用内存块减少分配开销,而分级管理则根据性能需求将内存划分为L1/L2/L3/DDR不同层级。文章详细展示了内存池的数据结构、分配/释放逻辑以及分级管理的实现代码,为开发者优化AI

CANN生态深度解析:ops-nn的卷积算子实现与优化

本文深入解析了CANN生态中ops-nn仓库的卷积算子实现与优化技术。首先介绍了卷积原理及其类型(标准卷积、深度可分离卷积等),分析了卷积算子面临的性能挑战。然后详细展示了两种实现方法:直接卷积实现和Im2col实现(将卷积转换为矩阵乘法)。文章通过代码示例演示了两种方法的实现细节,包括输入输出尺寸计算、边界处理、内存访问优化等关键环节,为开发者理解高性能卷积算子实现提供了技术参考。

CANN生态安全保障:cann-security-module的数据加密机制

CANN生态中的cann-security-module提供了全面的数据安全保护机制。该模块采用分层架构设计,包含加密层、密钥管理层、认证层等核心组件,支持对称加密(AES/SM4)、非对称加密(RSA/ECC/SM2)以及混合加密技术。通过密钥生成、安全存储和访问控制等流程,security-module有效保障AI应用中的模型数据、训练数据和推理数据安全。开发者可通过该模块实现数据加密、传输保

#安全
CANN生态模型部署:model-zoo的模型版本管理与更新

本文介绍了CANN生态中model-zoo项目的模型版本管理与更新机制。model-zoo采用分层架构设计,包含模型存储、版本控制、元数据管理等核心组件,支持完整的模型生命周期管理。系统实现了语义化版本控制、版本历史记录、完整性校验和回滚功能,并定义了丰富的模型元数据结构,包括框架、架构、性能指标等关键信息。通过规范的版本管理和元数据记录,model-zoo为AI模型部署提供了可靠的基础设施支持。

#人工智能
CANN生态模型优化:omg-model-optimizer的量化策略

本文介绍了CANN生态中omg-model-optimizer工具的量化策略,重点分析了三种量化算法:线性量化、对数量化和混合精度量化。量化通过降低模型参数精度,可显著减少75%模型大小、提高2-4倍推理速度并降低功耗。文章详细阐述了量化原理、类型及收益,并提供了Python实现的量化器代码示例,包括校准、量化和反量化过程。此外还介绍了量化感知训练等精度优化技术,帮助开发者在保持模型精度的同时优化

#分布式
CANN生态通信库:分布式训练的梯度压缩技术

CANN生态通信库提供了高效的梯度压缩技术,显著降低分布式深度学习训练中的通信开销。通过量化压缩(降低梯度精度)、稀疏化压缩(仅传输重要梯度)和Top-K压缩(传输最重要的K个梯度)等算法,可减少50-90%的通信数据量。结合梯度累积和误差反馈技术,在保持模型精度的同时大幅提升训练速度。这些优化技术使得大规模分布式训练更加高效,支持更多训练节点的协同工作,有效解决了通信瓶颈问题。

#分布式
CANN通信库:分布式训练的容错机制

本文介绍了CANN通信库在分布式深度学习训练中的容错机制,主要包括故障检测、故障恢复和一致性保证三方面内容。通过心跳检测和健康检查实现故障检测,采用检查点恢复和节点替换进行故障恢复,确保分布式训练的可靠性。文章提供了C语言和Python代码示例,展示了容错机制的具体实现方法。

#分布式#wpf
深入理解华为 CANN:AI Core 架构的算子执行之道

如果说 CPU 是多面手、GPU 是大规模向量计算的加速器,那么 AI Core 则是面向人工智能计算场景的“专用武器”。它并非像 ASIC 那样只专注单一算法,而是在深度学习中提炼出最常见的计算模型,通过 Domain Specific Architecture(DSA)设计,将硬件资源精细划分为矩阵计算、向量计算、标量控制三大类单元。

文章图片
#华为#人工智能#架构
华为 CANN 典型算子编程范式深度解析:从流水任务到融合计算的体系化方法论

在 Ascend AI 处理器上开发高性能算子,往往不仅取决于算法本身的数学复杂度,更取决于开发者是否能充分利用芯片内部的存储结构、指令流水和多执行单元异步并行的能力。为此,华为 CANN(Compute Architecture for Neural Networks)提供了一套完善的算子编程范式,将硬件细节抽象为统一模型,帮助开发者快速构建高效、可维护的核函数。

文章图片
#华为
    共 79 条
  • 1
  • 2
  • 3
  • 8
  • 请选择