枳虞ya 个人主页

@2501_93816875

枳虞ya

2025-11-20 18:41:29 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

鸿蒙与Electron融合开发：跨平台桌面应用新思路

鸿蒙Electron正以“Web技术+原生能力”的独特模式，重新定义跨平台开发的标准。通过本文的实战案例，您已掌握从环境搭建到分布式应用开发的全流程。立即访问鸿蒙开发者官网获取最新SDK，开启您的全场景开发之旅！

#harmonyos #electron #华为

Flutter：跨平台开发的未来之选（附详细代码案例与实战指南）

本文基于Flutter 3.19版本，系统介绍了该跨平台开发框架的核心优势与实践应用。重点分析了Flutter的自绘引擎架构实现60fps流畅动画的技术原理，以及热重载开发体验的高效特性。文章详细演示了开发环境搭建流程，并通过计数器应用和底部导航栏等典型代码案例，展示了Flutter的实际开发过程。最后探讨了Flutter在移动、Web、桌面等多平台的应用场景及性能优化策略，指出其凭借持续优化的渲

#flutter #javascript #前端

FlashAttention 到底在抢什么时间？——ops-transformer 里的“记忆加速药“

摘要：昇腾NPU在大模型推理中面临Attention算子HBM访问瓶颈问题，FlashAttention通过分块计算和在线Softmax技术显著优化性能。该方案特别适合昇腾达芬奇架构，利用片上内存减少数据搬运，在长序列场景下性能提升明显（如LLaMA-2 7B推理）。CANN 8.0+已原生支持，PyTorch用户无需修改代码即可自动启用。但需注意短序列（<512 tokens）可能适得其反。该方

#transformer #深度学习 #人工智能

RoPE 位置编码算子：让 Transformer 记住“你是第几个字“

本文分析了昇腾NPU上运行LLaMA推理时，当上下文超过2K时模型性能下降的原因——位置编码（RoPE）处理不当。文章详细介绍了RoPE的工作原理及其在长上下文中的计算瓶颈，并提出了三种优化方案：1）预计算+查找表减少重复计算；2）利用Vector核并行处理旋转运算；3）分块处理长上下文以减少显存访问。实验显示，优化后LLaMA-2 7B模型的Prefill吞吐提升44%，解码延迟降低30%。文章

#transformer #深度学习 #人工智能

CANN torchtitan-npu：用 PyTorch 原生方式训练大模型

Meta开源的torchtitan-npu是昇腾NPU适配版本，基于PyTorch FSDP框架实现大模型训练。它通过替换设备抽象层、通信后端和算子适配（CUDA→CANN），支持在昇腾NPU上运行LLaMA等模型。环境需严格匹配CANN 8.0+、PyTorch 2.1.0+等组件版本，配置文件支持7B/13B/70B等不同规模的模型训练。框架提供FSDP+HCCL数据并行方案，支持Tensor

#pytorch #人工智能 #python

CANN torchtitan-npu：用 PyTorch 原生方式训练大模型

#pytorch #人工智能 #python

CANN torchtitan-npu：用 PyTorch 原生方式训练大模型

#pytorch #人工智能 #python

CANN torchtitan-npu：用 PyTorch 原生方式训练大模型

#pytorch #人工智能 #python

CANN runtime：昇腾NPU的运行时怎么管理计算任务

昇腾NPU运行时（runtime）是连接算子编译与硬件执行的关键中间层，负责内存管理、任务调度和流控制。它通过Context管理设备资源，利用Stream实现并行计算，借助Event进行流间同步，并采用高效的内存分配策略。runtime采用命令队列模式下发任务，支持同步/异步执行，通过多Stream并行提升NPU利用率。开发者可通过内存池复用、多流并行等技术优化性能，并使用msprof工具监控硬件

#人工智能 #flask #python +3

CANN runtime：昇腾NPU的运行时怎么管理计算任务

#人工智能 #flask #python +3

共 43 条

请选择