logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【vLLM-Ascend】 ModelRunner架构解析

本文详细介绍了NPUModelRunner的核心功能与类结构,重点解析了模型加载、KV缓存管理、图捕获优化等关键方法。该模块支持多模态输入,通过调度器更新状态并执行高效推理,包含语法约束、位置编码处理等特色功能。文章还提供了流程图说明主模型推理与MTP模型验证的三阶段流程,适用于昇腾NPU平台的模型优化与部署场景。

#架构#python
【vLLM-Ascend】 ModelRunner架构解析

本文详细介绍了NPUModelRunner的核心功能与类结构,重点解析了模型加载、KV缓存管理、图捕获优化等关键方法。该模块支持多模态输入,通过调度器更新状态并执行高效推理,包含语法约束、位置编码处理等特色功能。文章还提供了流程图说明主模型推理与MTP模型验证的三阶段流程,适用于昇腾NPU平台的模型优化与部署场景。

#架构#python
【vLLM-Ascend】 ModelRunner架构解析

本文详细介绍了NPUModelRunner的核心功能与类结构,重点解析了模型加载、KV缓存管理、图捕获优化等关键方法。该模块支持多模态输入,通过调度器更新状态并执行高效推理,包含语法约束、位置编码处理等特色功能。文章还提供了流程图说明主模型推理与MTP模型验证的三阶段流程,适用于昇腾NPU平台的模型优化与部署场景。

#架构#python
【vLLM-模型特性适配】vllm-ascend开发之Rope适配

摘要:本文详细介绍了旋转位置编码(RoPE)的技术原理及其在VLLM框架中的实现。RoPE通过旋转矩阵为Transformer的查询和键向量注入位置信息,支持half和interleave两种计算模式。文章剖析了RoPE的核心计算逻辑,包括位置索引处理、向量拆分和旋转运算,并对比了不同实现方式。随后以Qwen3为例,展示了VLLM中RoPE的完整执行流程,包括初始化、缓存计算及多硬件后端适配机制。

【vLLM-模型特性适配】vllm-ascend开发之Rope适配

摘要:本文详细介绍了旋转位置编码(RoPE)的技术原理及其在VLLM框架中的实现。RoPE通过旋转矩阵为Transformer的查询和键向量注入位置信息,支持half和interleave两种计算模式。文章剖析了RoPE的核心计算逻辑,包括位置索引处理、向量拆分和旋转运算,并对比了不同实现方式。随后以Qwen3为例,展示了VLLM中RoPE的完整执行流程,包括初始化、缓存计算及多硬件后端适配机制。

【vLLM-模型特性适配】vllm-ascend开发之FlashComm2

本文介绍了FlashComm2优化方案及其在vllm-ascend中的实现。FlashComm2通过通信前移和All2All+MatMul计算优化大模型TP场景,相比FlashComm1减少了通信量。在vllm-ascend中,通过替换Qwen2/3的关键组件(如Linear和RMSNorm)并添加装饰器,实现了计算图优化,包括新增all_gather、unpad等操作。该方案保持了较好的泛化性,

#python
【vLLM-模型特性适配】vllm-ascend开发之FlashComm2

本文介绍了FlashComm2优化方案及其在vllm-ascend中的实现。FlashComm2通过通信前移和All2All+MatMul计算优化大模型TP场景,相比FlashComm1减少了通信量。在vllm-ascend中,通过替换Qwen2/3的关键组件(如Linear和RMSNorm)并添加装饰器,实现了计算图优化,包括新增all_gather、unpad等操作。该方案保持了较好的泛化性,

#python
【vLLM-模型特性适配】vllm-ascend开发之FlashComm2

本文介绍了FlashComm2优化方案及其在vllm-ascend中的实现。FlashComm2通过通信前移和All2All+MatMul计算优化大模型TP场景,相比FlashComm1减少了通信量。在vllm-ascend中,通过替换Qwen2/3的关键组件(如Linear和RMSNorm)并添加装饰器,实现了计算图优化,包括新增all_gather、unpad等操作。该方案保持了较好的泛化性,

#python
到底了