logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【vLLM-Ascend】 ModelRunner架构解析

本文介绍了昇腾NPU上的vLLM推理框架核心组件ModelRunner,重点解析了NPUModelRunner类的架构与实现。该模块提供模型加载编译、KV缓存管理、图优化等核心功能,支持多模态输入处理。关键方法包括状态更新(_update_states)、模型执行(execute_model)、语法约束处理(apply_grammar_bitmask)等,通过torchair/ACL Graph实

#python
【vLLM-Ascend】 ModelRunner架构解析

本文介绍了昇腾NPU上的vLLM推理框架核心组件ModelRunner,重点解析了NPUModelRunner类的架构与实现。该模块提供模型加载编译、KV缓存管理、图优化等核心功能,支持多模态输入处理。关键方法包括状态更新(_update_states)、模型执行(execute_model)、语法约束处理(apply_grammar_bitmask)等,通过torchair/ACL Graph实

#python
【vLLM-Ascend】 ModelRunner架构解析

本文介绍了昇腾NPU上的vLLM推理框架核心组件ModelRunner,重点解析了NPUModelRunner类的架构与实现。该模块提供模型加载编译、KV缓存管理、图优化等核心功能,支持多模态输入处理。关键方法包括状态更新(_update_states)、模型执行(execute_model)、语法约束处理(apply_grammar_bitmask)等,通过torchair/ACL Graph实

#python
【vllm-ascend】 MTP原理及工程适配

MTP通过并行预测多个Token,将1-token的生成,转变成multi-token的生成,在不影响输出质量的前提下提升生成吞吐量, 实现成倍的推理加速来提升推理性能。

【vLLM-框架及特性学习】vllm-ascend torch.compile 的原理与使用

`torch.compile` 是 PyTorch 2.0 引入的一项核心性能优化功能,旨在通过即时编译(JIT)技术将 PyTorch 模型编译为更高效的机器代码,从而显著提升模型训练和推理的运行速度,同时几乎不需要用户修改原有代码

#学习
【vllm-ascend】 MTP原理及工程适配

MTP通过并行预测多个Token,将1-token的生成,转变成multi-token的生成,在不影响输出质量的前提下提升生成吞吐量, 实现成倍的推理加速来提升推理性能。

【vLLM-框架及特性学习】vllm-ascend torch.compile 的原理与使用

`torch.compile` 是 PyTorch 2.0 引入的一项核心性能优化功能,旨在通过即时编译(JIT)技术将 PyTorch 模型编译为更高效的机器代码,从而显著提升模型训练和推理的运行速度,同时几乎不需要用户修改原有代码

#学习
【vLLM-框架及特性学习】vllm-ascend torch.compile 的原理与使用

`torch.compile` 是 PyTorch 2.0 引入的一项核心性能优化功能,旨在通过即时编译(JIT)技术将 PyTorch 模型编译为更高效的机器代码,从而显著提升模型训练和推理的运行速度,同时几乎不需要用户修改原有代码

#学习
【vllm-ascend】 MTP原理及工程适配

MTP通过并行预测多个Token,将1-token的生成,转变成multi-token的生成,在不影响输出质量的前提下提升生成吞吐量, 实现成倍的推理加速来提升推理性能。

到底了