logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

[服务可观测]vllm推理服务指标监控看板搭建手册

摘要:本文介绍了vLLM推理服务监控看板的搭建过程,使用Prometheus+Grafana+vLLM-metrics组件。主要内容包括:1)环境准备,详细说明了Prometheus和Grafana的安装配置步骤;2)看板配置,包含数据源添加和仪表盘导入;3)最终效果展示。通过配置Prometheus采集vLLM服务指标,结合Grafana可视化展示,实现了对vLLM推理服务的实时监控。文章提供了

文章图片
#人工智能
[模型适配]-[多模态生成]-基于昇腾910B部署Qwen-Image-2512

vLLM-Omni框架扩展了多模态支持,实现文本、图像、视频和音频的并行生成。环境配置使用vLLM-Ascend镜像和GitHub代码库,成功安装所需依赖。通过启动vLLM模型推理服务和图形界面,测试了图像生成功能。此外,采用TeaCache和Cache-DiT两种加速方法优化性能,对比显示TeaCache将端到端延迟降低至基准的93.3%,Cache-DiT达到96.6%。该框架显著提升了多模态

文章图片
#人工智能
[推理优化]-[量化]-大模型量化效果评价-Qwen2.5-72B

本文对Qwen2.5-72B-Instruct模型进行了量化效果评测,主要考察精度损失和推理性能。使用msit/msmodelslim工具进行w8a8和w4a16两种量化,并在evalscope工具上进行测试。结果显示:w8a8量化最大精度损失仅0.012,w4a16为0.0261;在性能方面,w8a8在8卡部署时吞吐提升1.46倍,而w4a16性能提升有限,适合并发需求低的场景。测试数据表明,w

文章图片
#人工智能#语言模型
[服务可观测]vllm推理服务指标监控看板搭建手册

摘要:本文介绍了vLLM推理服务监控看板的搭建过程,使用Prometheus+Grafana+vLLM-metrics组件。主要内容包括:1)环境准备,详细说明了Prometheus和Grafana的安装配置步骤;2)看板配置,包含数据源添加和仪表盘导入;3)最终效果展示。通过配置Prometheus采集vLLM服务指标,结合Grafana可视化展示,实现了对vLLM推理服务的实时监控。文章提供了

文章图片
#人工智能
[模型适配]-[多模态生成]-基于昇腾910B部署Qwen-Image-2512

vLLM-Omni框架扩展了多模态支持,实现文本、图像、视频和音频的并行生成。环境配置使用vLLM-Ascend镜像和GitHub代码库,成功安装所需依赖。通过启动vLLM模型推理服务和图形界面,测试了图像生成功能。此外,采用TeaCache和Cache-DiT两种加速方法优化性能,对比显示TeaCache将端到端延迟降低至基准的93.3%,Cache-DiT达到96.6%。该框架显著提升了多模态

文章图片
#人工智能
    共 21 条
  • 1
  • 2
  • 3
  • 请选择