AiChiMomo. 个人主页

@qq_37368095

AiChiMomo.

2023-09-25 10:36:11 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【vLLM-性能调优】vLLM场景下Profiling使用指导与能力汇总

摘要： vLLM-Ascend是针对昇腾NPU优化的高性能推理框架，集成Ascend PyTorch Profiler性能分析工具，支持全栈性能数据采集。通过环境变量或API控制Profiling开关，开发者可采集PyTorch算子、CANN软件栈及NPU硬件层的执行数据，支持离线推理、在线服务及性能基准测试场景。框架提供灵活的配置参数，包括采集级别（Level0-Level2）、AI Core指

#昇腾

【vLLM-模型特性适配】GLM4.5 GLM4.6 w8a8权重量化

本文介绍了智谱GLM4.5/GLM4.6模型的推理性能优化方法，重点提供量化权重导出方案。首先需要准备硬件环境（910B 8卡）和软件环境（CANN 8.2.RC1、msmodelslim等），通过下载官方镜像并安装必要的Python库完成环境配置。针对量化工具msmodelslim的特殊适配需求，文章详细说明了如何修改相关代码文件，包括新建__init__.py和glm4moe.py文件，并实现

#昇腾

【vLLM-环境部署指导】aisbench精度性能环境部署验证

ais_bench 是专门用于评估模型在Ascend硬件上推理精度和性能的AI基准测试工具。精度验证通过对比模型输出与预期结果，确保模型部署的准确性；性能测试则衡量推理速度、吞吐量等关键指标，为优化提供依据。本文档基于官方实践整理，提供完整的测试流程。

#昇腾

到底了