logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【vLLM-Ascend】基于PyTorch Profiler的性能数据采集实践

在大模型推理服务的性能调优过程中,精准定位计算瓶颈、分析算子执行效率与资源利用率是提升系统吞吐与响应速度的关键。vLLM-Ascend作为基于昇腾NPU的高性能推理框架,集成了Ascend PyTorch Profiler能力,支持从框架层到硬件层的全栈性能数据采集。本文以Qwen3-32B模型为例,详细介绍如何在v0.14.0rc1版本中配置并采集在线服务的profiling数据,涵盖环境准备、

#pytorch#人工智能
【vLLM-Ascend】基于PyTorch Profiler的性能数据采集实践

在大模型推理服务的性能调优过程中,精准定位计算瓶颈、分析算子执行效率与资源利用率是提升系统吞吐与响应速度的关键。vLLM-Ascend作为基于昇腾NPU的高性能推理框架,集成了Ascend PyTorch Profiler能力,支持从框架层到硬件层的全栈性能数据采集。本文以Qwen3-32B模型为例,详细介绍如何在v0.14.0rc1版本中配置并采集在线服务的profiling数据,涵盖环境准备、

#pytorch#人工智能
【vLLM-Ascend】基于PyTorch Profiler的性能数据采集实践

在大模型推理服务的性能调优过程中,精准定位计算瓶颈、分析算子执行效率与资源利用率是提升系统吞吐与响应速度的关键。vLLM-Ascend作为基于昇腾NPU的高性能推理框架,集成了Ascend PyTorch Profiler能力,支持从框架层到硬件层的全栈性能数据采集。本文以Qwen3-32B模型为例,详细介绍如何在v0.14.0rc1版本中配置并采集在线服务的profiling数据,涵盖环境准备、

#pytorch#人工智能
Ascend(昇腾)性能优化文章导航

作者:昇腾实战派算力赋能时代,性能优化既是突破算力瓶颈的关键,也是国产化智能化转型的核心命题。本文聚焦昇腾设备全链路性能优化,汇总从硬件到软件,从算子到框架的实用干货,拆解调优技巧、分享实战案例、解答常见痛点。无论你是深耕昇腾的技术开发者,还是初探优化领域的初学者,都能在这里找到有价值的内容,一起解锁昇腾算力潜能,共探性能优化之道。

#性能优化
【triton教程】Triton-Ascend环境安装指南

Triton-Ascend 是适配华为 Ascend 昇腾芯片的 Triton 优化版本,提供高效的核函数自动调优、算子编译及部署能力。本文将详细介绍在昇腾环境中安装Triton-Ascend的完整流程,涵盖环境准备、依赖安装和验证测试等关键步骤。

#sglang
NPU推理性能优化实践:从CPU下发瓶颈到算子级调优

本文针对Qwen2-1.5B模型在Atlas 800I A2单卡部署中的性能瓶颈展开分析,发现主要问题为下发延迟和算子执行效率。通过KAT自动调优和KSYS系统分析,识别出NUMA访问、缓存命中率等关键瓶颈,并提出绑核优化、内存绑定等解决方案。最终实现34%的TPOT性能提升,为NPU推理优化提供系统性方法,建议持续监控并开展更深层次的算子级优化。

#性能优化
【CUDA】CUDA C++介绍

并行计算:以vector add为例,计算output中第一个元素的过程和计算第二、三个元素的过程独立。CPU+高速总线(PCIE/NVLink)+GPU(用于数学/科学计算,有自己的操作系统)main函数调用该kernel时,也需要修改调用参数。改写add()来使用并行线程,而非并行blocks。使用threadIdx.x代替blockIdx.x。术语:一个block可以被划分为并行线程。但是不

#c++#算法#开发语言 +1
到底了