m0_63217963 个人主页

@m0_63217963

m0_63217963

2023-08-10 12:57:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3 模型代码分析

自注意力模块，包含 QKV 投影、旋转位置编码和注意力计算：解码器层，组合注意力模块和前馈网络Qwen3Model：模型主体，由多个解码器层堆叠而成：因果语言模型封装，包含模型主体和输出层Qwen3 模型在 vLLM 中的实现充分利用了模块化设计和并行计算技术，既保留了原模型的核心特性，又针对高效推理进行了优化。关键亮点包括 Q/K 归一化、灵活的注意力配置、完善的并行计算支持以及与 vLLM 生

vLLM-Ascend中LoRA核心算子逻辑与整体流程解析

LoRA的核心计算分为“降秩（A矩阵）+升秩（B矩阵）+缩放+叠加”四步，对应→的调用链；sgmv_*函数负责处理多序列的LoRA ID扩展，bgmv_*函数负责核心的矩阵乘法；分片版函数（*_slice）是显存优化手段，适配超大模型/超长序列的推理；变量名在中是笔误，实际对应A矩阵，需注意代码实现的细节；add_inputs参数控制“叠加”还是“赋值”，对应LoRA公式中WxBAxWx + BA

#pytorch #深度学习

vLLM-Ascend中LoRA核心算子逻辑与整体流程解析

#pytorch #深度学习

vLLM-Ascend中LoRA核心算子逻辑与整体流程解析

#pytorch #深度学习

Qwen2模型结构代码详解

并行优化：通过张量并行（TP）切分线性层/注意力头，流水线并行（PP）切分解码器层，适配大模型多GPU推理；效率优化：融合QKV/gate-up投影、KV缓存、RoPE优化，减少计算和通信开销；兼容性：兼容HuggingFace的Qwen2权重，支持量化、LoRA、超长上下文；推理专属：无训练相关代码，全部为推理优化（Pre-LN、残差连接、缓存管理）。

Deepseek v3.2模型在MindIE框架下部署指导

1. 模型概述及场景 DeepSeek-V3.2是一款在高计算效率与卓越推理能力间取得突破性平衡的先进模型，基于以下关键技术突破： DeepSeek 稀疏注意力（DSA）：引入DSA高效的注意力机制，它显著降低了计算复杂性，同时保持了模型性能，特别针对长上下文场景进行了优化。可扩展的强化学习框架：通过实施强大的 RL 协议并扩展后训练计算，DeepSeek-V3.2 的表现与 GPT-5 相

#昇腾

到底了