一起养小猫个人主页

@2502_91523773

一起养小猫

2025-10-03 13:38:40 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CANN-昇腾NPU-推理延迟优化-首token延迟怎么压到100ms以内

本文探讨了如何将大模型推理的首token延迟（TTFB）优化至100ms以内。通过分析Llama2-7B在昇腾NPU上的性能瓶颈，提出四项关键优化：1）采用FlashAttention V2实现2倍加速；2）FFN层算子融合提升28%性能；3）Prompt Cache缓存系统提示节省10-20ms；4）Chunked Prefill技术将长序列处理的首token响应从280ms降至85ms。实验显

#开发语言

CANN-昇腾NPU-推理延迟优化-首token延迟怎么压到100ms以内

#开发语言

CANN-昇腾NPU-推理延迟优化-首token延迟怎么压到100ms以内

#开发语言

CANN-昇腾NPU-多机多卡-怎么把16卡用出32卡的效果

本文介绍了提升Atlas 800I A2 NPU利用率的方法，将16张卡的等效算力提升38%。通过分析发现原始利用率仅64%，主要损耗来自通信开销(12%)、显存搬运(8%)等。提出了五项优化：1)通信计算重叠(MC2)降低通信开销；2)Double Buffer并行数据搬运；3)静态Shape编译减少重复编译；4)激进算子融合降低调度开销；5)自动调优Batch Size。综合优化后利用率提升至

#人工智能 #深度学习 #python

CANN-昇腾NPU-多机多卡-怎么把16卡用出32卡的效果

#人工智能 #深度学习 #python

CANN-ATB量化推理-昇腾NPU上W8A8量化为什么比W4A16更实用

昇腾NPU上W8A8量化比W4A16更实用的原因：W8A8在Llama2-70B模型上实现2倍压缩（4卡即可运行），精度损失仅0.1-0.5%，且利用NPU的int8 GEMM算力优势，解码速度比fp16提升16%。而W4A16虽然压缩比达4倍，但反量化开销大导致速度下降，且精度损失显著（GSM8K任务下降5.6%）。ATB量化工具支持多种方案，其中W8A8在显存节省、计算效率和精度保持上达到最佳

#前端 #javascript #html

CANN-ATB量化推理-昇腾NPU上W8A8量化为什么比W4A16更实用

#前端 #javascript #html

CANN-ATB量化推理-昇腾NPU上W8A8量化为什么比W4A16更实用

#前端 #javascript #html

CANN-昇腾NPU显存优化-大模型推理怎么把64GB用出128GB的感觉

这篇技术文章详细介绍了如何在昇腾NPU上优化大模型推理的显存使用。文章从显存分布分析入手，逐步讲解了五种优化方法：KV Cache分页分配、fp8压缩、权重W8A16量化、权重分片加载和共享权重。通过这些优化组合，作者展示了如何将Llama2-7B模型的显存使用效率提升近一倍，从96K token并发提升到197K。文章还针对不同规模的模型（7B/13B/70B）给出了具体的部署建议，强调优化顺序

#windows

CANN-昇腾NPU显存优化-大模型推理怎么把64GB用出128GB的感觉

#windows

共 190 条

请选择