
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文档将介绍基于vLLM-Ascend的Qwen3.5-397B模型在Atlas 800I A2上的单机混部部署实践,包括支持的特性、特性配置、环境信息以及性能测试典型case。
本文档将介绍基于vLLM-Ascend的Qwen3.5-397B模型在Atlas 800I A3上的单机混部部署实践,包括支持的特性、特性配置、环境信息以及性能测试典型case。
2026年,千问发布了Qwen3.5系列模型,其中MoE模型参数量更大,语义理解能力更强,同时由于每次前向计算只激活少量专家,推理速度有所保障。本文将围绕Qwen3.5模型的MoE部分展开,内容包括参数分析、结构分析、vllm实现流程和profiling拆解方法。本文基于transforms仓和vllm、vllm-ascend框架代码分析,请以官方代码仓为准。transformers仓中的Qwen
本文针对Qwen2-1.5B模型在Atlas 800I A2单卡部署中的性能瓶颈展开分析,发现主要问题为下发延迟和算子执行效率。通过KAT自动调优和KSYS系统分析,识别出NUMA访问、缓存命中率等关键瓶颈,并提出绑核优化、内存绑定等解决方案。最终实现34%的TPOT性能提升,为NPU推理优化提供系统性方法,建议持续监控并开展更深层次的算子级优化。
在构建高并发、低延迟的多模态AI分析系统时,L1阶段的初筛环节对推理性能提出严苛要求。系统需在1分钟内完成音频与视频输入的联合理解,输出初步判定结果。本文基于Atlas 800I A2部署Qwen3-Omni原生全模态大模型,围绕关键算子瓶颈展开深度优化,实现性能突破。
2026年,千问发布了Qwen3.5系列模型,其中MoE模型参数量更大,语义理解能力更强,同时由于每次前向计算只激活少量专家,推理速度有所保障。本文将围绕Qwen3.5模型的MoE部分展开,内容包括参数分析、结构分析、vllm实现流程和profiling拆解方法。本文基于transforms仓和vllm、vllm-ascend框架代码分析,请以官方代码仓为准。transformers仓中的Qwen
2026年,千问发布了Qwen3.5系列模型,其中MoE模型参数量更大,语义理解能力更强,同时由于每次前向计算只激活少量专家,推理速度有所保障。本文将围绕Qwen3.5模型的MoE部分展开,内容包括参数分析、结构分析、vllm实现流程和profiling拆解方法。本文基于transforms仓和vllm、vllm-ascend框架代码分析,请以官方代码仓为准。transformers仓中的Qwen
2026年,千问发布了Qwen3.5系列模型,其中MoE模型参数量更大,语义理解能力更强,同时由于每次前向计算只激活少量专家,推理速度有所保障。本文将围绕Qwen3.5模型的MoE部分展开,内容包括参数分析、结构分析、vllm实现流程和profiling拆解方法。本文基于transforms仓和vllm、vllm-ascend框架代码分析,请以官方代码仓为准。transformers仓中的Qwen
在使用vllm/vllm-ascned进行多轮工具调用时,遇到了调用失败的问题。本文将详细描述问题现象、初步定位、根因分析及解决方案,帮助开发者解决类似问题。
在构建高并发、低延迟的多模态AI分析系统时,L1阶段的初筛环节对推理性能提出严苛要求。系统需在1分钟内完成音频与视频输入的联合理解,输出初步判定结果。本文基于Atlas 800I A2部署Qwen3-Omni原生全模态大模型,围绕关键算子瓶颈展开深度优化,实现性能突破。







