logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从零玩转 Ascend C Tiling:高性能向量加法算子实战指南

Tiling 策略选型:优先使用,实际项目中可根据硬件特性(如 UB 大小、AI Core 数量)调整策略阈值。内存管理:设备端内存尽量复用(如析构时统一释放),减少aclrtFree的调用次数,降低开销。调试工具:开发阶段使用单步调试 Kernel,查看 UB 内存数据;性能优化阶段使用npu_prof生成性能报告,定位瓶颈。代码可维护性:将 Kernel 拆分为基础版、对齐版、双缓冲版,通过策

#c语言#java#昇腾 +1
向下扎根:AI 内卷时代,算子开发为何成为核心竞争力护城河?

摘要:本文探讨了AI时代开发者如何构建核心竞争力,提出深耕底层技术——特别是算子开发——是应对应用层竞争加剧的关键出路。文章分析了应用层开发的三大瓶颈:性能优化壁垒、算法创新枷锁和职业替代风险,指出CANN架构和AscendC工具为开发者提供了突破这些限制的技术路径。通过解析算子开发全流程和案例,展示了如何实现从"API调用者"到"底层构建者"的转变。文章强

文章图片
#人工智能#昇腾#c++
从调包到造核:CANN 训练营让我吃透 Ascend C 异构编程

在 AI 开发领域,多数开发者习惯于依赖深度学习框架的高层 API 完成模型训练与推理,这种 "调包式" 开发虽能快速实现业务需求,却难以触及硬件底层的性能潜力。报名 2025 昇腾 CANN 训练营第二季的核心目标,正是突破这一技术瓶颈 —— 通过系统学习 Ascend C 算子开发,建立异构计算的工程思维,实现从 "使用者" 到 "构建者" 的能力升级。本文结合训练营核心课程与实操实践,系统拆

#昇腾#c++
向下扎根:AI 内卷时代,算子开发为何成为核心竞争力护城河?

摘要:本文探讨了AI时代开发者如何构建核心竞争力,提出深耕底层技术——特别是算子开发——是应对应用层竞争加剧的关键出路。文章分析了应用层开发的三大瓶颈:性能优化壁垒、算法创新枷锁和职业替代风险,指出CANN架构和AscendC工具为开发者提供了突破这些限制的技术路径。通过解析算子开发全流程和案例,展示了如何实现从"API调用者"到"底层构建者"的转变。文章强

文章图片
#人工智能#昇腾#c++
向下扎根:AI 内卷时代,算子开发为何成为核心竞争力护城河?

摘要:本文探讨了AI时代开发者如何构建核心竞争力,提出深耕底层技术——特别是算子开发——是应对应用层竞争加剧的关键出路。文章分析了应用层开发的三大瓶颈:性能优化壁垒、算法创新枷锁和职业替代风险,指出CANN架构和AscendC工具为开发者提供了突破这些限制的技术路径。通过解析算子开发全流程和案例,展示了如何实现从"API调用者"到"底层构建者"的转变。文章强

文章图片
#人工智能#昇腾#c++
向下扎根:AI 内卷时代,算子开发为何成为核心竞争力护城河?

摘要:本文探讨了AI时代开发者如何构建核心竞争力,提出深耕底层技术——特别是算子开发——是应对应用层竞争加剧的关键出路。文章分析了应用层开发的三大瓶颈:性能优化壁垒、算法创新枷锁和职业替代风险,指出CANN架构和AscendC工具为开发者提供了突破这些限制的技术路径。通过解析算子开发全流程和案例,展示了如何实现从"API调用者"到"底层构建者"的转变。文章强

文章图片
#人工智能#昇腾#c++
多核协同的艺术:CANN 规约算子开发中的同步与共享内存技术

在中声明一个数组,用于存储所有 Core 的局部结果。数组大小需不小于参与并行的 Core 数量(block_num// __gm__ 关键字标识该数组位于Global Memory如果说 SPMD 模型解决了 "如何让多个核同时干活" 的问题,那么共享内存与同步机制则解决了 "如何让多个核协同干好复杂活" 的问题。从功能上,能够实现依赖全局信息的复杂算子,突破基础并行的功能边界;从性能上,能够通

文章图片
#java#大数据#数据库
到底了