logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

GE 在 CANN 五层架构中的位置

**摘要:**昇腾NPU通过优化FlashAttention实现大模型训练加速。在Ascend 910上,LLaMA-13B模型的训练速度从1200 tokens/s提升至3500 tokens/s,显存占用从18GB降至6GB。该优化基于分块计算和Ascend C重写核心算法,减少HBM访问次数。实测显示,4096序列长度下单步训练时间从520ms降至180ms,收敛速度也因平滑Softmax而

文章图片
#transformer#深度学习#人工智能
GE 在 CANN 五层架构中的位置

**摘要:**昇腾NPU通过优化FlashAttention实现大模型训练加速。在Ascend 910上,LLaMA-13B模型的训练速度从1200 tokens/s提升至3500 tokens/s,显存占用从18GB降至6GB。该优化基于分块计算和Ascend C重写核心算法,减少HBM访问次数。实测显示,4096序列长度下单步训练时间从520ms降至180ms,收敛速度也因平滑Softmax而

文章图片
#transformer#深度学习#人工智能
GE 在 CANN 五层架构中的位置

**摘要:**昇腾NPU通过优化FlashAttention实现大模型训练加速。在Ascend 910上,LLaMA-13B模型的训练速度从1200 tokens/s提升至3500 tokens/s,显存占用从18GB降至6GB。该优化基于分块计算和Ascend C重写核心算法,减少HBM访问次数。实测显示,4096序列长度下单步训练时间从520ms降至180ms,收敛速度也因平滑Softmax而

文章图片
#transformer#深度学习#人工智能
ops-cv 计算机视觉算子库:YOLOv5 在昇腾NPU上的正确打开方式

昇腾CANN社区发布ops-math算子库贡献指南,帮助开发者高效参与开源项目。该指南详细介绍了6步贡献流程:从Fork仓库、签署CLA、编写代码和测试用例,到提交PR和等待审核。重点强调了代码规范(中文注释、命名规则)和性能要求(需达到PyTorch原生算子的1.5-2倍速度)。文中特别提醒新手注意CLA必须手签、测试需覆盖边界情况等常见问题,并提供了性能测试方法和问题解答。该指南旨在降低贡献门

文章图片
#issue
ops-cv 计算机视觉算子库:YOLOv5 在昇腾NPU上的正确打开方式

昇腾CANN社区发布ops-math算子库贡献指南,帮助开发者高效参与开源项目。该指南详细介绍了6步贡献流程:从Fork仓库、签署CLA、编写代码和测试用例,到提交PR和等待审核。重点强调了代码规范(中文注释、命名规则)和性能要求(需达到PyTorch原生算子的1.5-2倍速度)。文中特别提醒新手注意CLA必须手签、测试需覆盖边界情况等常见问题,并提供了性能测试方法和问题解答。该指南旨在降低贡献门

文章图片
#issue
ops-cv 计算机视觉算子库:YOLOv5 在昇腾NPU上的正确打开方式

昇腾CANN社区发布ops-math算子库贡献指南,帮助开发者高效参与开源项目。该指南详细介绍了6步贡献流程:从Fork仓库、签署CLA、编写代码和测试用例,到提交PR和等待审核。重点强调了代码规范(中文注释、命名规则)和性能要求(需达到PyTorch原生算子的1.5-2倍速度)。文中特别提醒新手注意CLA必须手签、测试需覆盖边界情况等常见问题,并提供了性能测试方法和问题解答。该指南旨在降低贡献门

文章图片
#issue
华为昇腾AI开发者课程:基于ModelArts和CANN的模型开发实战

**核心逻辑**:通过软件模拟`Issue Queue`,分析不同流水线(如向量计算PIPE V EXC、矩阵计算PIPE M EXC)的指令依赖,自动乱序调度无依赖指令,并跨多层循环预取数据搬运指令。同时支持用户自定义融合规则(如ResNet的卷积+BN+激活融合)。- **性能收益**:消除流水线“气泡”(无效等待),AI Core流水线并行度提升,ResNet50训练性能优化20%。- **

文章图片
#人工智能#性能优化
华为昇腾AI开发者课程深度解析

摘要:华为昇腾AI开发者课程提供全栈AI开发培训,涵盖模型训练到推理部署全流程。课程特色包括工业级案例实战和昇腾处理器性能优化技术。详细配置指南包含Ubuntu系统环境搭建、CANN工具包安装及验证步骤。核心技术内容涉及ResNet-50模型训练实现、ONNX模型转换流程、AscendCL高性能推理代码示例,以及AOE自动优化工具和混合精度训练等高级调优方法。配套错误排查手册提供常见问题解决方案和

文章图片
#人工智能#深度学习#性能优化
# 解码昇腾AI处理器:从达芬奇架构到智能调优的全栈优化之道

2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。报名链接:https://www.hiascend.com/developer/activities/cann20252。以BERT为

文章图片
#人工智能#性能优化#深度学习
昇腾AI处理器基础计算层(HAL)全解析:全栈算力的底层基石

华为昇腾AI处理器凭借全栈协同优化能力成为AI算力核心引擎,其底层CANN软件栈中的基础计算层(HAL)是关键支撑。HAL包含五大核心组件:RMS实现微秒级资源调度,CMS提供高效通信支持,DMS负责设备全生命周期管理,DRV执行硬件操作,UTILITY提供公共服务。该架构通过模块化设计实现性能优化、可靠性保障和全场景适配,支持算力利用率提升20%以上,通信延迟降低40%,为昇腾AI生态提供坚实的

文章图片
#人工智能#深度学习#性能优化
    共 71 条
  • 1
  • 2
  • 3
  • 8
  • 请选择