logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Ascend C 内存体系深潜:从硬件原理到极致优化,掌握Global Memory、UB与L1 Cache的高效数据搬运策略

摘要:本文系统解析昇腾AI处理器的多级内存架构,重点探讨Global Memory、Unified Buffer和L1 Cache的性能特性与协同机制。通过实测数据对比各层级内存的带宽/延迟差异,提出Double Buffer、向量化访问等核心优化技术,并给出完整的AscendC实现代码。文章包含矩阵乘法优化案例及大模型训练中的内存管理策略,提供性能分析工具使用指南,帮助开发者突破内存瓶颈,实现计

文章图片
#CANN#昇腾
Ascend C 内存体系深潜:从硬件原理到极致优化,掌握Global Memory、UB与L1 Cache的高效数据搬运策略

摘要:本文系统解析昇腾AI处理器的多级内存架构,重点探讨Global Memory、Unified Buffer和L1 Cache的性能特性与协同机制。通过实测数据对比各层级内存的带宽/延迟差异,提出Double Buffer、向量化访问等核心优化技术,并给出完整的AscendC实现代码。文章包含矩阵乘法优化案例及大模型训练中的内存管理策略,提供性能分析工具使用指南,帮助开发者突破内存瓶颈,实现计

文章图片
#CANN#昇腾
Ascend C 内存体系深潜:从硬件原理到极致优化,掌握Global Memory、UB与L1 Cache的高效数据搬运策略

摘要:本文系统解析昇腾AI处理器的多级内存架构,重点探讨Global Memory、Unified Buffer和L1 Cache的性能特性与协同机制。通过实测数据对比各层级内存的带宽/延迟差异,提出Double Buffer、向量化访问等核心优化技术,并给出完整的AscendC实现代码。文章包含矩阵乘法优化案例及大模型训练中的内存管理策略,提供性能分析工具使用指南,帮助开发者突破内存瓶颈,实现计

文章图片
#CANN#昇腾
Ascend C 内存体系深潜:从硬件原理到极致优化,掌握Global Memory、UB与L1 Cache的高效数据搬运策略

摘要:本文系统解析昇腾AI处理器的多级内存架构,重点探讨Global Memory、Unified Buffer和L1 Cache的性能特性与协同机制。通过实测数据对比各层级内存的带宽/延迟差异,提出Double Buffer、向量化访问等核心优化技术,并给出完整的AscendC实现代码。文章包含矩阵乘法优化案例及大模型训练中的内存管理策略,提供性能分析工具使用指南,帮助开发者突破内存瓶颈,实现计

文章图片
#CANN#昇腾
超越CUDA:Triton硬件无关性在昇腾平台上的实现挑战与突破

摘要:本文系统研究了Triton硬件无关编程模型在昇腾AI处理器上的实现机制。针对CUDA生态锁定问题,深入解析了Triton中间表示层对异构计算的抽象方法,重点探讨了SPMD模型与昇腾达芬奇架构的映射策略。通过矩阵乘法和卷积算子的完整移植案例,展示了从CUDA到Ascend的代码迁移过程,并首次公开了在万亿参数推荐系统中的实战性能数据。研究表明,Triton-on-Ascend方案能保持90%以

文章图片
#昇腾#CANN#Triton
超越CUDA:Triton硬件无关性在昇腾平台上的实现挑战与突破

摘要:本文系统研究了Triton硬件无关编程模型在昇腾AI处理器上的实现机制。针对CUDA生态锁定问题,深入解析了Triton中间表示层对异构计算的抽象方法,重点探讨了SPMD模型与昇腾达芬奇架构的映射策略。通过矩阵乘法和卷积算子的完整移植案例,展示了从CUDA到Ascend的代码迁移过程,并首次公开了在万亿参数推荐系统中的实战性能数据。研究表明,Triton-on-Ascend方案能保持90%以

文章图片
#昇腾#CANN#Triton
超越CUDA:Triton硬件无关性在昇腾平台上的实现挑战与突破

摘要:本文系统研究了Triton硬件无关编程模型在昇腾AI处理器上的实现机制。针对CUDA生态锁定问题,深入解析了Triton中间表示层对异构计算的抽象方法,重点探讨了SPMD模型与昇腾达芬奇架构的映射策略。通过矩阵乘法和卷积算子的完整移植案例,展示了从CUDA到Ascend的代码迁移过程,并首次公开了在万亿参数推荐系统中的实战性能数据。研究表明,Triton-on-Ascend方案能保持90%以

文章图片
#昇腾#CANN#Triton
仓颉语言核心设计哲学与语言特性详解

仓颉(Cangjie)是由华为推出的新一代系统编程语言,为鸿蒙生态量身定制。本文深度解析仓颉的设计哲学、核心语言特性、与其他语言的对比,帮助开发者理解为何仓颉是构建高性能系统应用的最佳选择。✅ 仓颉融合了Rust 的安全Go 的简洁和Kotlin 的表达力✅所有权系统是内存安全的基石✅模式匹配使错误处理优雅而直观✅结构化并发降低并发开发门槛。

文章图片
#开发语言#harmonyos#华为
仓颉开发环境搭建与工具链完全指南

从零开始构建仓颉开发环境并不复杂。本文详细讲解如何在 Windows、macOS、Linux 上安装仓颉开发工具包(SDK),配置编辑器,理解编译工具链,以及常见问题排查。fill:#333;color:#333;color:#333;fill:none;仓颉工具链编译器包管理器cjpm构建系统cjbuildIDE插件VSCode/AS词法分析语法分析代码生成机器码生成依赖管理版本控制自动化编译单

文章图片
#开发语言#harmonyos#华为
Rust 高性能数据工程:使用 Polars 库进行亿级数据分析

性能:基于 NumPy,单线程执行(受 GIL 限制)。内存占用:操作(如merge)经常复制整个 DataFrame,内存效率低下。API 限制:缺乏统一的查询优化器,等设计混乱。列式存储:Polars 基于 Apache Arrow,天然适合分析型查询 (OLAP)。惰性求值lazy()是性能的关键,它开启了查询优化器。查询优化:谓词下下推和投影下推是减少 I/O 和内存占用的核心。多线程:P

文章图片
#rust#数据分析#开发语言 +1
    共 15 条
  • 1
  • 2
  • 请选择