logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN ops-cv:NPU端CV专用算子库,图像处理与目标检测加速核心

CANN生态下的ops-cv是专为图像处理、目标检测打造的NPU硬件优化算子库,核心实现计算机视觉网络在NPU上的高效加速计算,是CV模型落地Ascend NPU的核心底层组件。该仓库以C++为核心开发语言(占比78.74%),辅以CMake、Shell、Python完成工程构建与轻量调用,封装了CV任务全流程高频算子,针对NPU架构做并行计算优化,无需开发者手动适配硬件,大幅降低YOLO、Fas

#图像处理#目标检测#目标跟踪
CANN opns-math:基础数学算子核心库,筑牢AI计算的底层数学基石

摘要:CANN生态下的opns-math仓库是专为AI计算优化的基础数学算子库,针对标量、向量、矩阵运算及概率统计提供硬件加速实现。通过并行计算和精度适配(FP32/FP16/INT8),其计算效率较通用实现提升2-4倍,成为CV、NLP等AI任务的底层计算引擎。该库采用模块化设计,包含核心接口、算子实现和示例代码,支持矩阵乘法、Softmax等高频操作,显著提升AI应用的整体性能。

文章图片
#AIGC#人工智能
CANN opns-math:基础数学算子核心库,筑牢AI计算的底层数学基石

摘要:CANN生态下的opns-math仓库是专为AI计算优化的基础数学算子库,针对标量、向量、矩阵运算及概率统计提供硬件加速实现。通过并行计算和精度适配(FP32/FP16/INT8),其计算效率较通用实现提升2-4倍,成为CV、NLP等AI任务的底层计算引擎。该库采用模块化设计,包含核心接口、算子实现和示例代码,支持矩阵乘法、Softmax等高频操作,显著提升AI应用的整体性能。

文章图片
#AIGC#人工智能
CANN AMCT:AIGC模型量化加速实战

本文介绍了华为CANN框架中的AMCT模型压缩工具在AIGC场景下的应用。针对大模型推理存在的计算资源消耗大、延迟高等痛点,AMCT提供量化感知训练、混合精度优化等功能,可显著提升推理速度并降低显存占用。文章通过文本生成模型量化案例,详细展示了从环境配置、校准数据准备到模型量化的全流程,实测INT8量化后推理速度提升35%,显存占用下降75%。最后提出了校准数据覆盖性、混合精度配置等优化建议,为A

文章图片
#AIGC#人工智能
CANN AMCT:AIGC模型量化加速实战

本文介绍了华为CANN框架中的AMCT模型压缩工具在AIGC场景下的应用。针对大模型推理存在的计算资源消耗大、延迟高等痛点,AMCT提供量化感知训练、混合精度优化等功能,可显著提升推理速度并降低显存占用。文章通过文本生成模型量化案例,详细展示了从环境配置、校准数据准备到模型量化的全流程,实测INT8量化后推理速度提升35%,显存占用下降75%。最后提出了校准数据覆盖性、混合精度配置等优化建议,为A

文章图片
#AIGC#人工智能
CANN GE:图神经网络驱动的多模态AIGC创新

输入:用户提示文本 + 相关知识图节点(如实体、属性、关系)。目标:生成连贯且知识准确的回复。模型结构:BERT‑style 文本编码器 + GNN 图编码器 + 交叉注意力 + 解码器。CANN 的ge为 AIGC 任务提供了从图构建到算子执行的完整、高性能解决方案。通过 ge 的高效图算子、动态图构建与混合精度支持,AIGC 开发者可以在保持生成质量的前提下,大幅提升推理速度与资源利用率。无论

#神经网络#AIGC#人工智能
CANN GE:图神经网络驱动的多模态AIGC创新

输入:用户提示文本 + 相关知识图节点(如实体、属性、关系)。目标:生成连贯且知识准确的回复。模型结构:BERT‑style 文本编码器 + GNN 图编码器 + 交叉注意力 + 解码器。CANN 的ge为 AIGC 任务提供了从图构建到算子执行的完整、高性能解决方案。通过 ge 的高效图算子、动态图构建与混合精度支持,AIGC 开发者可以在保持生成质量的前提下,大幅提升推理速度与资源利用率。无论

#神经网络#AIGC#人工智能
CANN/catlass:矩阵计算模板库,快速构建高性能算子

矩阵乘法(GEMM,General Matrix Multiplication)是深度学习、科学计算等 AI 模型中最核心的计算单元,通常占据模型推理和训练时 80% 以上的计算量。传统手动优化矩阵算子不仅需要编写大量汇编代码,还面临不同硬件架构(如 CPU/GPU/AI 加速器)适配困难的问题。

#java#linux#算法
CANN/catlass:矩阵计算模板库,快速构建高性能算子

矩阵乘法(GEMM,General Matrix Multiplication)是深度学习、科学计算等 AI 模型中最核心的计算单元,通常占据模型推理和训练时 80% 以上的计算量。传统手动优化矩阵算子不仅需要编写大量汇编代码,还面临不同硬件架构(如 CPU/GPU/AI 加速器)适配困难的问题。

#java#linux#算法
CANN/hccl:分布式训练通信库,解锁千卡级AI集群的高效协同能力

在大规模AI模型训练场景中,“通信效率”已成为制约训练速度的核心瓶颈——传统分布式通信库难以适配AI集群的高带宽、低延迟需求,多机多卡间的数据同步往往消耗30%-50%的训练时间。CANN生态下的hccl仓库(Huawei Collective Communication Library),专为AI分布式训练打造高性能集合通信能力,通过拓扑感知优化、通信算子融合、异步通信调度等核心技术,将千卡级集

#分布式#人工智能
    共 75 条
  • 1
  • 2
  • 3
  • 8
  • 请选择