logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【vLLM-性能调优】vLLM场景下Profiling使用指导与能力汇总

摘要: vLLM-Ascend是针对昇腾NPU优化的高性能推理框架,集成Ascend PyTorch Profiler性能分析工具,支持全栈性能数据采集。通过环境变量或API控制Profiling开关,开发者可采集PyTorch算子、CANN软件栈及NPU硬件层的执行数据,支持离线推理、在线服务及性能基准测试场景。框架提供灵活的配置参数,包括采集级别(Level0-Level2)、AI Core指

#昇腾
【vLLM-性能调优】vLLM场景下Profiling使用指导与能力汇总

摘要: vLLM-Ascend是针对昇腾NPU优化的高性能推理框架,集成Ascend PyTorch Profiler性能分析工具,支持全栈性能数据采集。通过环境变量或API控制Profiling开关,开发者可采集PyTorch算子、CANN软件栈及NPU硬件层的执行数据,支持离线推理、在线服务及性能基准测试场景。框架提供灵活的配置参数,包括采集级别(Level0-Level2)、AI Core指

#昇腾
【vLLM-性能调优】vLLM场景下Profiling使用指导与能力汇总

摘要: vLLM-Ascend是针对昇腾NPU优化的高性能推理框架,集成Ascend PyTorch Profiler性能分析工具,支持全栈性能数据采集。通过环境变量或API控制Profiling开关,开发者可采集PyTorch算子、CANN软件栈及NPU硬件层的执行数据,支持离线推理、在线服务及性能基准测试场景。框架提供灵活的配置参数,包括采集级别(Level0-Level2)、AI Core指

#昇腾
【vLLM-模型特性适配】GLM4.5 GLM4.6 w8a8权重量化

本文介绍了智谱GLM4.5/GLM4.6模型的推理性能优化方法,重点提供量化权重导出方案。首先需要准备硬件环境(910B 8卡)和软件环境(CANN 8.2.RC1、msmodelslim等),通过下载官方镜像并安装必要的Python库完成环境配置。针对量化工具msmodelslim的特殊适配需求,文章详细说明了如何修改相关代码文件,包括新建__init__.py和glm4moe.py文件,并实现

#昇腾
到底了