logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多卡推理的通信瓶颈:HCCL实战指南

摘要:本文介绍了昇腾NPU在多卡推理场景下的通信优化方案。重点分析了三种并行策略(TP、PP、EP)的通信模式及对应的HCCL接口实现,包括AllReduce、AllGather和ReduceScatter等核心通信原语。详细展示了HCCL环境初始化的关键步骤和注意事项,并通过代码示例演示了张量并行中的AllReduce操作和专家并行中的AllGather+ReduceScatter通信对实现。文

文章图片
#asp.net#后端#人工智能
多卡推理的通信瓶颈:HCCL实战指南

摘要:本文介绍了昇腾NPU在多卡推理场景下的通信优化方案。重点分析了三种并行策略(TP、PP、EP)的通信模式及对应的HCCL接口实现,包括AllReduce、AllGather和ReduceScatter等核心通信原语。详细展示了HCCL环境初始化的关键步骤和注意事项,并通过代码示例演示了张量并行中的AllReduce操作和专家并行中的AllGather+ReduceScatter通信对实现。文

文章图片
#asp.net#后端#人工智能
拆开catlass:昇腾算子模板库的设计与实战

Catlass是昇腾CANN开源的算子模板库,旨在简化NPU算子开发流程。它将通用计算模式抽象为三层模板架构:基础原语(数据搬移、计算等)、算子骨架(矩阵乘/卷积等)和实例化接口。开发者只需关注算子核心逻辑,模板自动生成70%的样板代码,显著提升开发效率。相比传统Ascend C开发,catlass生成的算子性能接近手写代码(如1024x1024矩阵乘法达90%手写性能),同时保证代码一致性。其设

文章图片
#大数据#人工智能#算法
拆开catlass:昇腾算子模板库的设计与实战

Catlass是昇腾CANN开源的算子模板库,旨在简化NPU算子开发流程。它将通用计算模式抽象为三层模板架构:基础原语(数据搬移、计算等)、算子骨架(矩阵乘/卷积等)和实例化接口。开发者只需关注算子核心逻辑,模板自动生成70%的样板代码,显著提升开发效率。相比传统Ascend C开发,catlass生成的算子性能接近手写代码(如1024x1024矩阵乘法达90%手写性能),同时保证代码一致性。其设

文章图片
#大数据#人工智能#算法
拆开catlass:昇腾算子模板库的设计与实战

Catlass是昇腾CANN开源的算子模板库,旨在简化NPU算子开发流程。它将通用计算模式抽象为三层模板架构:基础原语(数据搬移、计算等)、算子骨架(矩阵乘/卷积等)和实例化接口。开发者只需关注算子核心逻辑,模板自动生成70%的样板代码,显著提升开发效率。相比传统Ascend C开发,catlass生成的算子性能接近手写代码(如1024x1024矩阵乘法达90%手写性能),同时保证代码一致性。其设

文章图片
#大数据#人工智能#算法
华为昇腾平台合规体系与服务生态深度解析:为开发者保驾护航

华为昇腾开发者平台构建了完善的合规体系与服务生态,通过法律声明、隐私政策等保障开发者权益,并与华为云、鲲鹏社区等形成资源联动。该平台以课程学习为起点,提供跨平台工具支持,覆盖开发全流程。开发者可借助云端算力、开源资源等实现高效学习与项目落地,同时需注意各平台合规要求。这种生态整合模式显著提升了开发效率,加速技术商业化进程。

#华为#大数据
昇腾开发者学习指南:从应用到算子的全链路 AI 开发资源汇总

昇腾开发者社区推出系统化学习平台,提供四大核心路径:应用开发(推理部署/RAG/Diffusion)、模型开发(微调/LLM全流程)、加速库开发(PTAdapter/MindSpeed-LLM)和算子开发(CANN架构/AscendC),覆盖AI开发全场景。平台配套在线课程、微认证、实验环境和案例文档,并设有论坛及技术支持。2025年CANN训练营第二季将推出专题课程及认证活动,完成社区任务可赢取

#人工智能#大数据
Flutter与原生交互进阶实践:跨端协同、灰度发布与监控体系构建

本文探讨Flutter与原生交互的进阶实践,针对中大型混合开发项目面临的跨端状态同步、复杂UI展示、灰度发布与监控等核心挑战,提出系统化解决方案。重点构建基于"发布-订阅"模式的跨端状态同步架构,通过统一事件定义、封装事件总线实现实时状态协同;同时优化复杂UI混合展示性能,设计原生插件灰度发布策略,并建立全链路监控体系。这些方案可有效解决状态不一致、性能瓶颈、版本兼容等问题,为

文章图片
#harmonyos#electron#ar
Flutter与原生交互的异常处理与容错机制实战指南

Flutter与原生交互的异常处理与容错机制实战指南 摘要:本文针对Flutter混合开发中跨端交互的高发异常问题,系统梳理了通信链路、数据序列化、原生接口、业务逻辑及网络环境五类常见异常。提出构建"分层容错+全链路防护"的异常处理架构,包含交互核心层的基础防护、业务适配层的精准容错、业务层的体验保障和全局兜底层的崩溃防护。详细拆解了各环节的实战解决方案,如Channel初始化

文章图片
#人工智能#大数据#harmonyos +3
昇腾学习平台与生态工具协同指南:从知识吸收到项目落地的全链路转化

本文探讨了华为昇腾开发者学习平台与生态工具的协同应用,针对开发者"学用脱节"问题提出解决方案。文章详细拆解了应用开发、模型开发、加速库开发和算子开发四大学习路径,分别匹配MindStudio、MindSpore、MindSpeed-LLM等核心工具的使用场景。同时提出"学习-工具-落地"全链路转化技巧:学习阶段边学边练、工具阶段聚焦核心功能、落地阶段从小项目

#学习#人工智能#大数据 +1
    共 42 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择