logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【vLLM-性能调优】vLLM场景下Profiling使用指导与能力汇总

摘要: vLLM-Ascend是针对昇腾NPU优化的高性能推理框架,集成Ascend PyTorch Profiler性能分析工具,支持全栈性能数据采集。通过环境变量或API控制Profiling开关,开发者可采集PyTorch算子、CANN软件栈及NPU硬件层的执行数据,支持离线推理、在线服务及性能基准测试场景。框架提供灵活的配置参数,包括采集级别(Level0-Level2)、AI Core指

#昇腾
【vLLM-模型特性适配】GLM4.5 GLM4.6 w8a8权重量化

本文介绍了智谱GLM4.5/GLM4.6模型的推理性能优化方法,重点提供量化权重导出方案。首先需要准备硬件环境(910B 8卡)和软件环境(CANN 8.2.RC1、msmodelslim等),通过下载官方镜像并安装必要的Python库完成环境配置。针对量化工具msmodelslim的特殊适配需求,文章详细说明了如何修改相关代码文件,包括新建__init__.py和glm4moe.py文件,并实现

#昇腾
【vLLM-环境部署指导】aisbench精度性能环境部署验证

ais_bench 是专门用于评估模型在Ascend硬件上推理精度和性能的AI基准测试工具。精度验证通过对比模型输出与预期结果,确保模型部署的准确性;性能测试则衡量推理速度、吞吐量等关键指标,为优化提供依据。本文档基于官方实践整理,提供完整的测试流程。

#昇腾
到底了