logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

hixl:昇腾单边通信库生态协作解读

FlashAttention通过分块计算、在线Softmax和KV压缩融合三大优化,在昇腾NPU上显著提升Attention计算效率。它将标准Attention的三次显存搬运缩减为一次,针对NPU架构优化分块大小(如128×128),并支持INT8/INT4压缩KV Cache。实测LLaMA-70B模型吞吐提升210%,延迟降低53%。用户仅需替换三行代码即可接入PyTorch或MindSpor

文章图片
#人工智能
torchtitan-npu:大模型训练框架快速上手实战

本文分享了将Llama-3-70B模型训练从8卡GPU迁移到64卡昇腾NPU集群的实战经验。首先强调正确安装NPU驱动和CANN工具包的重要性,并详细说明了环境配置步骤。接着介绍了如何逐步推进训练任务,从7B模型开始验证流程,重点讲解了数据集准备、配置文件修改和训练启动方法。文章还总结了三个关键性能调优参数(通信拓扑、梯度累积步数和激活重计算)以及训练不稳定的排查清单。最后简要说明了checkpo

文章图片
#人工智能#目标跟踪#计算机视觉
ascend-transformer-boost:Transformer加速库架构原理剖析

昇腾NPU上的Transformer加速库ATB通过三层架构优化大模型推理性能。相比PyTorch原生实现18 tokens/s的吞吐,ATB可达31 tokens/s,提升72%。其核心优势在于:1)将Transformer层封装为优化算子,减少中间结果读写;2)内置主流模型预优化实现;3)支持INT8/INT4量化。ATB采用"编译器级自动优化"思路,基于昇腾CANN算子库实现,相比NVIDI

文章图片
#transformer#架构#深度学习
GE图引擎架构剖析:怎么做到“代码零修改,性能最大化“

摘要:本文介绍了如何通过GE(Graph Engine)优化PyTorch模型在昇腾NPU上的性能。GE通过将动态图转为静态图,实现算子融合、内存复用和流水线调度,无需修改代码即可显著提升性能。文章详细解析了GE的三层架构(接口兼容层、自动调度层、优化实现层),并提供了ONNX、TorchScript和Python API三种优化方式。实验数据显示,算子融合可使Llama-3-7B模型延迟降低36

文章图片
#架构
昇腾NPU多机通信实战:从AllReduce到AlltoAll

本文分享了将Llama-2-70B模型从8卡GPU迁移到64卡昇腾NPU集群的实践经验。通过对比PyTorch DDP和hccl通信库的性能表现,发现hccl能将NPU利用率从38%提升至82%,训练吞吐提升2.3倍。文章详细介绍了环境准备要点,包括NPU驱动版本确认、RDMA网卡配置等关键步骤,并重点解析了hccl支持的四种核心通信原语(AllReduce、AllGather、ReduceSca

文章图片
#计算机视觉
FlashAttention在昇腾NPU上的极致优化:从原理到实践

本文分享了在昇腾NPU上优化Llama-3-70B模型Attention层的实战经验。通过分析FlashAttention的核心思想——减少HBM读写次数,作者采用分块计算和片上内存计算策略,将推理吞吐从18 tokens/s提升至67 tokens/s。文章详细介绍了达芬奇架构的存储层次和计算单元特点,并给出4个关键优化策略:自适应分块参数、流水线并行、内存访问优化和混合精度计算。这些方法使客户

文章图片
#transformer
shmem:昇腾NPU多卡共享内存的底层机

本文介绍了shmem技术在多卡推理中的应用,通过全局地址空间抽象实现类似单卡的编程体验。shmem采用三层架构(接口层、调度层、传输层),支持HCCS/PCIe/RDMA等多种传输方式,相比传统AllGather通信延迟降低500倍以上。文章通过性能对比显示,shmem远端访问延迟为2.3μs(HCCS),带宽200GB/s,适合参数分片场景。同时总结了三个实践坑点:参数均匀分布避免带宽瓶颈、使用

文章图片
torchtitan-npu:在Ascend 910上从头预训练Llama-3的完整实录

我所在团队要预训练一个7B参数的语言模型,预算只够买4张Ascend 910B。原来以为昇腾NPU只能跑推理,没想到torchtitan-npu直接支持大模型预训练——4卡跑7B模型,训练速度1470 tokens/s,两周训完100B tokens。这篇文章是完整的踩坑实录,从环境搭建到性能调优,每一步都记录在案。torchtitan-npu是Meta TorchTitan的昇腾NPU适配版,核

文章图片
HarmonyOS 与 Electron 的融合边界:构建企业级鸿蒙混合应用的工程化实践

摘要: 本文提出 Harmony Hybrid Runtime (HHR) 架构,将 Electron 的高效开发理念迁移至鸿蒙生态,实现前端技术与原生能力的深度结合。通过分层设计(前端工程、资源打包、容器宿主、原生服务、安全策略),HHR 支持 Vue/React 开发界面,ArkTS 封装系统能力,并通过安全桥接机制实现双向通信。以“设备诊断工具”为例,演示了工程目录组织、前端与原生模块化开发

文章图片
#electron#harmonyos#javascript
Flutter for HarmonyOS:跨平台开发新选择

本文介绍了Flutter for Harmony技术方案,它通过适配Flutter引擎使其能在HarmonyOS/OpenHarmony系统上运行。文章对比了原生ArkTS开发与Flutter for Harmony的优势,指出后者可降低学习成本、提高代码复用率。详细讲解了环境搭建步骤,并提供了一个完整的Flutter应用示例,展示如何创建和运行第一个Flutter+Harmony应用。同时也指出

文章图片
#flutter
    共 162 条
  • 1
  • 2
  • 3
  • 17
  • 请选择