会飞的企鹅a 个人主页

@m0_58526864

会飞的企鹅a

2025-12-30 19:29:46 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【vLLM-Ascend】 ModelRunner架构解析

本文介绍了昇腾NPU上的vLLM推理框架核心组件ModelRunner，重点解析了NPUModelRunner类的架构与实现。该模块提供模型加载编译、KV缓存管理、图优化等核心功能，支持多模态输入处理。关键方法包括状态更新(_update_states)、模型执行(execute_model)、语法约束处理(apply_grammar_bitmask)等，通过torchair/ACL Graph实

#python

【vLLM-Ascend】 ModelRunner架构解析

#python

【vLLM-Ascend】 ModelRunner架构解析

#python

【vllm-ascend】 MTP原理及工程适配

MTP通过并行预测多个Token，将1-token的生成，转变成multi-token的生成,在不影响输出质量的前提下提升生成吞吐量, 实现成倍的推理加速来提升推理性能。

【vLLM-框架及特性学习】vllm-ascend torch.compile 的原理与使用

`torch.compile` 是 PyTorch 2.0 引入的一项核心性能优化功能，旨在通过即时编译（JIT）技术将 PyTorch 模型编译为更高效的机器代码，从而显著提升模型训练和推理的运行速度，同时几乎不需要用户修改原有代码

#学习

【vllm-ascend】 MTP原理及工程适配

MTP通过并行预测多个Token，将1-token的生成，转变成multi-token的生成,在不影响输出质量的前提下提升生成吞吐量, 实现成倍的推理加速来提升推理性能。

【vLLM-框架及特性学习】vllm-ascend torch.compile 的原理与使用

#学习

【vLLM-框架及特性学习】vllm-ascend torch.compile 的原理与使用

#学习

【vllm-ascend】 MTP原理及工程适配

MTP通过并行预测多个Token，将1-token的生成，转变成multi-token的生成,在不影响输出质量的前提下提升生成吞吐量, 实现成倍的推理加速来提升推理性能。

【vLLM-框架及特性学习】vllm-ascend torch.compile 的原理与使用

实现。

#学习

到底了