2501_93573368 个人主页

@2501_93573368

2501_93573368

2025-11-05 18:03:34 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

RoPE 旋转位置编码：为什么大模型推理非要它不可

摘要：RoPE（旋转位置编码）解决了Transformer模型在长文本推理中的位置编码问题。相比传统绝对位置编码，RoPE通过旋转角度编码相对位置，具有更好的外推性和自然语言处理优势。在昇腾NPU上，ops-transformer采用逐元素操作而非矩阵乘法实现RoPE，利用Vector单元提升计算效率，并通过L1缓存和图编译优化减少数据搬运开销。这种数学设计与硬件优化的结合，使模型能在4K训练后直

#人工智能

你的大模型推理为什么越跑越慢？CANN ops-transformer 的 FlashAttention 给它提了速

摘要：大模型推理变慢的主要原因是Attention计算存在O(n²)复杂度问题，尤其长序列场景下显存带宽成为瓶颈。昇腾NPU通过CANNops-transformer中的FlashAttention优化方案，采用分块计算和在线softmax技术，将显存读写量从O(n²)降至O(n)。结合昇腾的达芬奇架构特性（大缓存、Cube单元等）和CANN软件栈的自动优化能力，实现了128K长序列推理延迟降低5

#CANN

torchtitan-npu：在昇腾集群上训练大模型

摘要：torchtitan-npu是CANN社区维护的昇腾NPU大模型训练参考实现，基于PyTorch+HCCL提供LLaMA等Transformer模型的分布式训练方案。它支持数据并行、张量并行和流水线并行的组合策略，通过HCCL实现高效通信优化。在8卡Ascend 910上，LLaMA-13B训练采用TP=8策略可降低单卡显存至9.5GB，组合并行策略最高吞吐达22,500 tokens/s。

#深度学习

TorchAir：PyTorch 跑在昇腾NPU上的桥梁

PyTorch模型无法直接在昇腾NPU上运行，但可通过TorchAir适配层实现透明迁移。TorchAir作为PyTorch插件，通过算子映射（CUDA→CANN）、内存管理和通信后端替换（NCCL→HCCL），将PyTorch代码路由到昇腾硬件。用户只需将.cuda()改为.npu()即可切换设备，无需修改模型代码。TorchAir还支持TorchScript图优化，并针对Transformer

#AIGC #学习

TorchAir：当 PyTorch 的动态图遇上昇腾NPU的静态编译

《昇腾NPU上的PyTorch编译优化：TorchAir技术解析》摘要： TorchAir是昇腾CANN推出的PyTorch动态图编译方案，相比传统ATC路径具有显著优势。该技术通过对接PyTorch 2.0的torch.compile接口，直接将动态图转换为CANN静态执行计划，省去了ONNX导出环节。其核心流程包括FX Graph标准化、设备映射和GE图优化三步，最终生成与ATC等效的OM文件

#python #开发语言

MindIE：大模型推理服务的调度、缓存和排队

MindIE是昇腾NPU上的大模型推理服务框架，通过Continuous Batching实现高效并发处理：动态重组Batch，让短Token请求无需等待长Token请求完成。采用Block级KV Cache管理避免内存碎片，将Cache切分为固定大小Block按需分配。针对长Prompt优化提出Prefill Chunking技术，分段处理避免阻塞其他请求。同时解决了KV Cache耗尽（通过S

#python #开发语言

DeepSeek-R1 在 CANN 上的推理部署

本文探讨了基于昇腾CANN和NPU的MoE模型DeepSeek-R1推理优化技术。该模型总参数量671B，每次推理激活37B参数，其MoE层通过路由选择和专家调度实现高效计算。关键技术包括：1）利用HCCL集合通信库实现专家并行中的All-to-All通信，优化token分发与结果收集；2）采用PD分离架构，Prefill阶段使用4卡处理计算密集型任务，Decode阶段16卡处理访存密集型任务；3

#python #pytorch #深度学习

ATC 模型转换：从 ONNX 到 OM，让你的 PyTorch 模型跑在昇腾NPU上

本文介绍了基于昇腾CANN和NPU的ATC模型转换技术。ATC将ONNX等模型编译为OM文件，包含图优化、算子融合等关键步骤。文章详细解析了ATC命令参数，如框架类型、输入形状、精度模式等，并针对动态Shape、自定义算子等常见问题提供解决方案。学习路径建议从基础模型转换逐步深入性能调优，并推荐了相关参考资源。该技术是昇腾AI推理流程的核心环节，直接影响模型部署效率。

#深度学习 #机器学习 #人工智能

Flutter for OpenHarmony：响应式布局（LayoutBuilder / MediaQuery）—— 构建真正自适应的鸿蒙应用

Flutter响应式布局助力OpenHarmony应用全场景适配摘要：本文探讨Flutter在OpenHarmony多设备生态中的响应式布局解决方案。针对手机、平板、智慧屏等不同尺寸设备，深入解析MediaQuery和LayoutBuilder两大核心工具的使用场景与差异：MediaQuery获取全局设备信息（如屏幕尺寸、横竖屏状态），LayoutBuilder则感知局部可用空间。通过新闻详情页

#flutter #harmonyos #华为

鸿蒙项目实战：完成随手账本发布检查与最终验收

摘要：本文以鸿蒙记账应用“随手账本”为例，详细讲解了发布检查与验收功能的实现方案。通过ArkUI组件构建状态检查面板，集中展示功能完整性、测试结果、界面适配与构建状态，采用响应式设计确保主题适配性。重点解析了组件层级与状态管理逻辑，强调验收需覆盖数据层、状态层、视图层和交互层闭环验证，并指出发布前仍需完成签名配置等关键步骤。文章提供从开发环境搭建到核心代码实现的完整路径，包含进度指示、检查项汇总等

#harmonyos #华为

共 445 条

请选择