logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

你的 LLaMA 模型在昇腾NPU 上跑太慢了?三步换上 FlashAttention,提速 2-3 倍

正在用昇腾NPU 跑大模型推理,被以下几个问题困扰?别急着加 GPU。换个 attention 算子就能解决。ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)里的 FlashAttention 算子,把 PyTorch 原生 attention 换成它,延迟直接砍到 1/3,显存占用降到原来的 1/5。这篇文章手把手带你从零开

Flutter 状态管理全攻略:从基础到进阶,解锁高效开发密码(鸿蒙PC可适配)

Flutter状态管理是应用开发的核心命题,本文系统讲解了从基础到进阶的解决方案。首先区分了局部状态(StatefulWidget+setState)和全局状态(Provider/Bloc/GetX)的不同管理策略,针对局部状态推荐使用ValueNotifier优化性能。重点分析了主流框架Provider的实现原理,通过ChangeNotifier实现响应式状态共享,并以主题切换为例演示了状态定义

#flutter
《Hello World 实战:10 分钟开发第一个鸿蒙PC Electron 应用(含代码 + 运行效果)》

摘要: 本文提供鸿蒙 Electron 快速入门指南,10分钟实现基础应用开发。基于已配置的环境(Node.js/HarmonyOS 4.0+/DevEco Studio),通过脚手架创建项目(含Vue模板),完成核心功能:1)渲染进程调用主进程API获取系统信息;2)界面交互展示。详细步骤涵盖4个关键文件修改:主进程监听通信(index.ts)、预加载脚本暴露接口(preload.js)、Vue

#harmonyos#electron#华为
《Hello World 实战:10 分钟开发第一个鸿蒙PC Electron 应用(含代码 + 运行效果)》

摘要: 本文提供鸿蒙 Electron 快速入门指南,10分钟实现基础应用开发。基于已配置的环境(Node.js/HarmonyOS 4.0+/DevEco Studio),通过脚手架创建项目(含Vue模板),完成核心功能:1)渲染进程调用主进程API获取系统信息;2)界面交互展示。详细步骤涵盖4个关键文件修改:主进程监听通信(index.ts)、预加载脚本暴露接口(preload.js)、Vue

#harmonyos#electron#华为
《鸿蒙PC Electron 网络请求实战:HTTP/HTTPS 调用、跨域解决、异常处理》

本文介绍了鸿蒙Electron应用中网络请求的实战方案,重点解决HTTP/HTTPS调用、跨域问题和异常处理等核心需求。文章首先强调了鸿蒙系统的权限管控特性,包括必须声明的网络权限和域名白名单配置。随后提出"主进程代理"的推荐架构,通过主进程处理请求来规避渲染进程的跨域限制。详细讲解了axios实例的创建与拦截器配置,包括请求头处理、认证token自动添加、超时重试机制和统一异

#harmonyos#网络#http
你的大模型想开 32K 上下文?FlashAttention 长上下文优化实战

想把 LLaMA 的上下文从 4K 拉到 32K,但一跑就 OOM?别急着换模型。FlashAttention 的分块机制配合 ops-transformer 的 chunked prefill,让你在昇腾NPU 上跑 32K 上下文成为可能。这篇文章手把手带你配置长上下文环境,30 分钟搞定。

#android
你的 LLaMA 模型在昇腾NPU 上跑太慢了?三步换上 FlashAttention,提速 2-3 倍

正在用昇腾NPU 跑大模型推理,被以下几个问题困扰?别急着加 GPU。换个 attention 算子就能解决。ops-transformer 仓库(https://atomgit.com/cann/ops-transformer)里的 FlashAttention 算子,把 PyTorch 原生 attention 换成它,延迟直接砍到 1/3,显存占用降到原来的 1/5。这篇文章手把手带你从零开

ops-transformer 的 FlashAttention:给昇腾NPU 配了个“高效厨房“

第一次在昇腾NPU 上跑 LLaMA-13B 的时候,显存爆了。不是模型太大,是 attention 计算中间存了一大堆临时矩阵,把 HBM(高带宽内存)撑到爆。那会还没用 ops-transformer 的 FlashAttention,用的是 PyTorch 原生的。后来翻 ops-transformer 的代码才发现,人家根本不存那些中间矩阵——直接在 SRAM(静态随机存取存储器)里把活干

#transformer#深度学习#人工智能
FlashAttention 在昇腾NPU上的实现:从内存墙到IO感知

之前帮一个团队排查大模型训练显存溢出的问题,拿到profiling数据一看,Attention 层的 HBM 访存占了整条流水线 60% 以上的带宽。这不是算力不够——是数据搬得太频繁了。标准的 Attention 实现会先算一个完整的 QK^T 矩阵存到显存,再算 Softmax,再乘 V——每一步都涉及 HBM 的读写。FlashAttention 做的事情是把这套流程拆成小块(tile),在

昇腾CANN手把手实战:从cann-learning-hub上手ops-transformer

你遇到过一个场景吗——模型在GPU上跑得好好的,搬到昇腾NPU上,Attention层直接Segmentation Fault。报错信息只有一行core dump,百度Google都搜不到。你翻遍了官方文档,最后在cann-learning-hub的一个讨论帖里,看到有人把ops-transformer的FlashAttention接入代码贴了出来。这篇文章就是那个帖子的完整版。

#transformer#深度学习#人工智能
    共 154 条
  • 1
  • 2
  • 3
  • 16
  • 请选择