qq_36396435 个人主页

@qq_36396435

qq_36396435

2023-07-31 16:18:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【vLLM-Ascend】 ModelRunner架构解析

本文详细介绍了NPUModelRunner的核心功能与类结构，重点解析了模型加载、KV缓存管理、图捕获优化等关键方法。该模块支持多模态输入，通过调度器更新状态并执行高效推理，包含语法约束、位置编码处理等特色功能。文章还提供了流程图说明主模型推理与MTP模型验证的三阶段流程，适用于昇腾NPU平台的模型优化与部署场景。

#架构 #python

【vLLM-Ascend】 ModelRunner架构解析

#架构 #python

【vLLM-Ascend】 ModelRunner架构解析

#架构 #python

vLLM-Ascend模型推理知识管理地图

待补充。

#python #人工智能

【vLLM-模型特性适配】vllm-ascend开发之Rope适配

摘要：本文详细介绍了旋转位置编码(RoPE)的技术原理及其在VLLM框架中的实现。RoPE通过旋转矩阵为Transformer的查询和键向量注入位置信息，支持half和interleave两种计算模式。文章剖析了RoPE的核心计算逻辑，包括位置索引处理、向量拆分和旋转运算，并对比了不同实现方式。随后以Qwen3为例，展示了VLLM中RoPE的完整执行流程，包括初始化、缓存计算及多硬件后端适配机制。

【vLLM-模型特性适配】vllm-ascend开发之Rope适配

【vLLM-模型特性适配】vllm-ascend开发之FlashComm2

本文介绍了FlashComm2优化方案及其在vllm-ascend中的实现。FlashComm2通过通信前移和All2All+MatMul计算优化大模型TP场景，相比FlashComm1减少了通信量。在vllm-ascend中，通过替换Qwen2/3的关键组件（如Linear和RMSNorm）并添加装饰器，实现了计算图优化，包括新增all_gather、unpad等操作。该方案保持了较好的泛化性，

#python

【vLLM-模型特性适配】vllm-ascend开发之FlashComm2

#python

【vLLM-模型特性适配】vllm-ascend开发之FlashComm2

#python

到底了