logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

仓颉跨语言混合编程:FFI实战与性能优化

摘要:本文深入探讨了仓颉语言外部函数接口(FFI)机制,重点分析了其在HarmonyOS生态中实现跨语言互操作的关键技术。文章系统阐述了FFI的核心原理,包括数据类型映射、内存管理和安全抽象设计,并通过封装zlib压缩库的实战案例,展示了如何在保持安全性的前提下实现高效调用。特别强调了通过RAII模式管理C资源、批处理优化减少调用开销、零拷贝技术提升性能等实践策略。最后讨论了FFI在平衡生态复用与

文章图片
#harmonyos#鸿蒙系统#性能优化
仓颉开发HarmonyOS应用:ArkUI组件开发实战

用户界面(UI, User Interface)是应用程序与用户交互的直接媒介,其质量直接影响用户体验。传统的UI开发模式,如Android View系统或iOS UIKit,大多采用命令式(Imperative)编程,开发者需要手动操作UI元素来响应状态变化,代码往往冗长且难以维护。HarmonyOS引入了ArkUI框架,拥抱了现代UI开发的趋势——声明式编程。开发者只需描述在特定状态下UI应该

文章图片
#harmonyos#华为#鸿蒙系统
自动调优在Triton-on-Ascend中的应用 - 从参数优化到性能极致挖掘

本文深入解析Triton-on-Ascend平台的自动调优技术体系,展示其在昇腾AI处理器上的优化效果。通过智能参数空间探索、贝叶斯优化和多目标优化等核心算法,自动调优相比手工调优可提升算子性能60%以上。文章包含矩阵乘法和卷积算子的完整调优案例,以及推荐系统、大语言模型等实战场景的优化数据。实测显示,自动调优在不同类型算子上可获得57%-64%的性能提升,同时提供故障诊断工具和最佳实践指导。最后

文章图片
#人工智能#算法#CANN +1
MlaProlog算子性能调优指南 Ascend C工具链实战解析

本文深入探讨基于Ascend C工具链的MlaProlog算子性能调优方法论。通过系统介绍性能分析工具链概览,详细解析典型性能瓶颈模式识别技术,并结合实际案例展示基于Profiling数据的迭代优化流程。文章重点探讨关键参数(Tiling策略、Pipe Depth等)的敏感度分析,提供达到理论峰值性能的实践路径,为AI开发者提供从基础理论到高级优化的完整性能调优解决方案。本文系统性地介绍了MlaP

文章图片
#CANN#昇腾#开源
Ascend C算子工程项目全链路构建实战

摘要:本文基于昇腾开发实战经验,系统阐述CANN框架下算子工程项目的构建方法。提出四层工程架构设计,包含Tiling动态调整算法、双缓冲流水线优化等核心技术,通过实际案例验证可将开发周期从月级缩短至周级,代码复用率达85%以上。详细解析了算子开发流程,包括环境配置、工程创建、调试优化等环节,并针对内存管理、多核同步等常见问题提供解决方案。最后展望了AI辅助生成、智能调优等未来发展趋势,为开发者提供

文章图片
#人工智能#昇腾#CANN
Ascend C内存越界访问的“侦探术“:从错误地址到Buffer/Tensor安全

摘要:本文深入剖析昇腾(Ascend)AI处理器算子开发中的内存越界问题,基于250+真实案例与CANN架构特性,提出五层防御体系:1)编译期静态检查;2)安全编码规范;3)运行时动态验证;4)硬件保护机制;5)系统监控优化。重点解析GlobalMemory、UnifiedBuffer等内存层次的特殊越界模式(如向量化静默越界),提供从错误日志解密、边界检查注入到影子内存技术的全链路解决方案。通过

文章图片
#人工智能#CANN#昇腾 +1
庖丁解“核”:Ascend C Kernel函数的并行计算模型与执行揭秘

真正的高性能计算不是关于编写代码,而是关于理解数据在硬件中的流动。Ascend C Kernel的设计精髓在于,它既提供了足够的抽象来保持开发效率,又保留了必要的控制力来实现极致性能。数据局部性优先:90%的性能问题源于内存访问并行暴露最大化:让硬件看到所有可并行的机会平衡的艺术:在抽象与控制之间找到最佳平衡点随着大模型时代的到来,算子开发正从"专家技能"变为"工程师必备"。掌握Ascend C

文章图片
#昇腾#CANN#SIMD
从原型到产品:融合算子的单元测试、集成测试与持续集成

本文系统探讨了昇腾AscendC融合算子的工程化测试策略,提出基于测试金字塔模型的全流程质量保障方案。通过分层测试架构设计,覆盖核函数单元测试到框架集成的各环节,并实现容器化部署环境。重点展示了RMSNorm+SwiGLU融合算子的单元测试实现、多核协同测试框架及性能基准测试体系。基于GitLab CI构建的CI/CD流水线将测试周期从周级缩短至小时级,缺陷逃逸率降低至5%以下。企业级实践案例表明

文章图片
#集成测试#ci/cd#单元测试 +2
Triton Kernel 开发步骤详解 - 从 IR 到昇腾硬件部署

摘要:本文深入解析Triton编译器在昇腾CANN生态中的应用,揭示从Python代码到Ascend硬件指令的完整编译流程。文章首先打破对Triton作为"Python装饰器"的认知误区,详细剖析其分层编译架构;随后通过向量加法等实例,展示Triton IR到昇腾后端的Lowering过程;提供Swish算子的完整开发示例,包括BLOCK_SIZE调优等实践技巧;最后展望Tri

文章图片
#昇腾#CANN#Triton
Ascend C调试技巧 - 常见错误与日志分析深度指南

调试能力是区分“能跑通的代码”和“能上线的算子”的唯一标准。那些年我见过最离谱的Bug,从AI Core神秘静默崩溃,到结果误差在第七位小数点后随机波动。这篇文章,我不给你列枯燥的错误码清单,我要给你一套能带走的“破案工具箱”和“刑侦思维”。第一,“结果错了,为啥?​ 我们将用二分法+ASAN+GDB三板斧,从海量代码中定位幽灵访越界。第二,“跑得太慢,卡在哪?​ 我们将深入Ascend Insi

文章图片
#CANN#昇腾
    共 67 条
  • 1
  • 2
  • 3
  • 7
  • 请选择