logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Triton-Ascend 算子开发基础与实战指南

摘要:《Triton-Ascend算子开发基础与实战指南》介绍了基于昇腾NPU的高效算子开发方法。传统昇腾算子开发需手写ASCENDC/汇编,而Triton-Ascend结合Python编程便捷性与昇腾硬件特性(如AICore、UB缓存、Cube单元),提供更优的开发体验。文章详细解析了昇腾特化的SPMD模型、核心概念差异,并通过向量加法等实战案例,重点阐述了UB分配、Cube单元适配、内存调度等

文章图片
#java#spring#开发语言 +1
Triton在昇腾NPU上的性能调优:内存优化指南

摘要:本文针对昇腾NPU算子开发中的性能瓶颈问题,重点分析了内存访问优化的关键策略。文章指出80%-90%的性能问题源于内存访问效率,并提出以下优化方法:1)确保连续访存避免带宽浪费;2)采用Block Swizzle技术提升L2缓存命中率;3)遵循128-bit内存对齐原则;4)合理管理UB空间和流水线调度。同时强调使用npu-smi和msprof等工具进行性能分析,通过Autotuner自动寻

文章图片
#人工智能#大数据#昇腾
重构到一半被额度拦住?飞算JavaAI的“无限对话”才是程序员的定心丸

摘要: 文章分享了作者在使用某AI编程助手时因Token额度中断而遭遇的开发挫败,随后转向飞算JavaAI专业版进行复杂重构的体验。飞算的"真正无限Tokens"功能消除了额度焦虑,支持多轮深度对话,帮助作者高效重构电商系统的折扣逻辑代码,生成策略模式、单元测试等,采纳率高达90%。其企业级专有模型提升了代码质量和开发效率,让作者重获编程心流体验。文末推荐开发者尝试飞算Java

文章图片
Triton-Ascend 算子开发基础与实战指南

摘要:《Triton-Ascend算子开发基础与实战指南》介绍了基于昇腾NPU的高效算子开发方法。传统昇腾算子开发需手写ASCENDC/汇编,而Triton-Ascend结合Python编程便捷性与昇腾硬件特性(如AICore、UB缓存、Cube单元),提供更优的开发体验。文章详细解析了昇腾特化的SPMD模型、核心概念差异,并通过向量加法等实战案例,重点阐述了UB分配、Cube单元适配、内存调度等

文章图片
#java#spring#开发语言 +1
Triton在昇腾NPU上的性能调优:内存优化指南

摘要:本文针对昇腾NPU算子开发中的性能瓶颈问题,重点分析了内存访问优化的关键策略。文章指出80%-90%的性能问题源于内存访问效率,并提出以下优化方法:1)确保连续访存避免带宽浪费;2)采用Block Swizzle技术提升L2缓存命中率;3)遵循128-bit内存对齐原则;4)合理管理UB空间和流水线调度。同时强调使用npu-smi和msprof等工具进行性能分析,通过Autotuner自动寻

文章图片
#人工智能#大数据#昇腾
到底了