logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从零理解昇腾NPU编程:一个普通开发者的Ascend C实战笔记

本文分享了作者从零学习昇腾NPU编程的真实历程。通过实践Ascend C算子开发,作者深刻体会到AI计算的本质区别:在NPU上,数据搬运、内存对齐和流水线设计比算法本身更重要。文章详细介绍了关键学习点:内存布局的对齐要求、分块与流水线优化、以及如何利用Profiling工具进行性能调优。作者强调,深入理解硬件才能真正提升性能,建议开发者沉下心来学习官方文档,从基础算子入手实践。掌握NPU底层开发能

文章图片
#c语言#开发语言
手写一个昇腾算子后,我才真正看懂AI加速的底层逻辑

摘要: 一位AI开发者分享在昇腾NPU平台上开发自定义算子的经验。从调参转向底层硬件优化,通过手写Softmax算子将推理延迟从18ms降至7.2ms。核心收获:1)硬件特性决定性能上限,需匹配数据布局;2)内存访问优化比计算更重要;3)分块策略要与L1缓存容量适配;4)利用Profiling/Debugger工具解决"无声崩溃"问题。作者强调掌握底层开发能力能构建技术壁垒,建

文章图片
#人工智能
稀疏的力量——CANN ops-sparse 算子库解锁下一代AI模型

摘要: CANN ops-sparse 算子库针对AI模型稀疏化趋势,解决传统硬件(如GPU)处理稀疏计算时内存访问不规则、计算利用率低等问题。通过昇腾NPU的硬件亲和设计(如索引预取、动态批处理),优化稀疏GEMM、MoE路由和稀疏注意力等核心操作,实现接近稠密计算的效率。结合CANN生态的图引擎和通信库,ops-sparse 在昇腾910B上可提升MoE模型吞吐量2倍以上,降低部署成本,为绿色

#人工智能
【昇腾 CANN】CANN 软件栈:连接硬件与 AI 应用的 “桥梁”

摘要:昇腾CANN软件栈作为连接AI应用与昇腾NPU硬件的桥梁,通过分层架构实现高效算力调度。开发者分享其智能质检项目案例,将推理延迟从300ms优化至89ms,关键点包括:1)通过框架适配实现零成本模型迁移;2)利用Profiling工具针对性优化算子性能;3)结合训练营课程与社区支持快速解决问题。CANN不仅降低40%硬件成本,还培养了开发者"软硬件协同"的核心能力,成为A

文章图片
#人工智能
【昇腾 AI 技术栈】从硬件到软件:昇腾 AI 处理器架构全解析

摘要:昇腾AI技术栈采用"硬件+软件"全栈协同设计,通过达芬奇架构的专用AI处理器实现高效深度学习计算。硬件层面创新性地整合矩阵、向量、标量计算单元,配备存储转换等优化模块;软件层面构建CANN异构计算架构和MindSpore框架,提供从芯片驱动到应用开发的完整工具链。该技术栈通过软硬件深度协同,在算力效率、开发便捷性和场景适应性方面展现突出优势,已成功应用于智慧城市、智能制造

文章图片
#人工智能
《CANN入门避坑:从“装不上驱动”到“跑通第一个昇腾算子”,30分钟搞定环境(附一键脚本)》

摘要:本文分享昇腾CANN开发环境快速部署指南,提供一键安装脚本解决驱动版本冲突、环境变量配置等常见问题。文章详解CANN三大核心组件,并演示10行代码实现NPU加法算子开发。关键注意事项包括版本对齐、环境变量配置和NPU特性适配,帮助开发者30分钟内完成环境搭建和首个算子验证。(149字)

文章图片
#服务器#运维
《CANN vs CUDA:昇腾与英伟达工具链终极对比!企业&开发者选型指南(2025实测)》

做AI开发、异构计算时,“选CANN(昇腾)还是CUDA(英伟达)”堪称“灵魂拷问”——有人吐槽CANN生态弱,也有人力挺它的国产化适配优势;CUDA虽稳,但硬件成本和国产化限制让人纠结。今天结合2025年最新实测数据,从三个核心维度拆解,帮你彻底理清差异,不管是个人学习还是企业项目选型,都能直接对号入座!

文章图片
#开发语言#人工智能
【高质量】小白也能懂!ModelArts DevContainer复现DeepSeek-R1对话模型:从账号登录到效果验证(避坑+实战)

本文是一篇面向技术小白的实战教程,详细讲解了如何在华为云ModelArts DevContainer中快速复现DeepSeek-R1对话模型。文章采用"前置准备→分步复现→效果验证"的清晰逻辑,将复杂的技术流程拆解为可操作的简单步骤,包括:账号注册与登录、DevContainer环境搭建、模型代码拉取与运行等关键环节。特别针对新手常见问题提供了避坑指南,如账号实名认证、容器规格

文章图片
#人工智能#开发语言
【高质量】Flutter适配鸿蒙实战指南:从环境搭建到分布式能力调用(附完整代码+性能对比)

Flutter适配鸿蒙实战指南:跨平台与分布式能力的完美结合 本文详细介绍了如何将Flutter应用适配鸿蒙系统的完整流程。通过Flutter的自绘引擎实现鸿蒙多设备UI统一,同时利用鸿蒙的分布式能力扩展应用场景。文章包含环境搭建步骤(Flutter 3.24+DevEco Studio配置)、核心适配方法(集成harmonyos_flutter官方库)、性能优化建议以及完整代码示例。实测数据显示

文章图片
#flutter#harmonyos#分布式
【昇腾 CANN】CANN 软件栈:连接硬件与 AI 应用的 “桥梁”

摘要:昇腾CANN软件栈作为连接AI应用与昇腾NPU硬件的桥梁,通过分层架构实现高效算力调度。开发者分享其智能质检项目案例,将推理延迟从300ms优化至89ms,关键点包括:1)通过框架适配实现零成本模型迁移;2)利用Profiling工具针对性优化算子性能;3)结合训练营课程与社区支持快速解决问题。CANN不仅降低40%硬件成本,还培养了开发者"软硬件协同"的核心能力,成为A

文章图片
#人工智能
    共 25 条
  • 1
  • 2
  • 3
  • 请选择