小行星B0302 个人主页

@qq_41907803

小行星B0302

2023-02-23 09:54:26 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

基于vLLM-Ascend的Qwen3.5-397B模型Atlas 800I A2单机混部部署实践

本文档将介绍基于vLLM-Ascend的Qwen3.5-397B模型在Atlas 800I A2上的单机混部部署实践，包括支持的特性、特性配置、环境信息以及性能测试典型case。

基于vLLM-Ascend的Qwen3.5-397B模型Atlas 800I A3单机混部部署实践

本文档将介绍基于vLLM-Ascend的Qwen3.5-397B模型在Atlas 800I A3上的单机混部部署实践，包括支持的特性、特性配置、环境信息以及性能测试典型case。

Qwen3.5 MoE结构拆解和profiling分析

2026年，千问发布了Qwen3.5系列模型，其中MoE模型参数量更大，语义理解能力更强，同时由于每次前向计算只激活少量专家，推理速度有所保障。本文将围绕Qwen3.5模型的MoE部分展开，内容包括参数分析、结构分析、vllm实现流程和profiling拆解方法。本文基于transforms仓和vllm、vllm-ascend框架代码分析，请以官方代码仓为准。transformers仓中的Qwen

#性能优化 #人工智能

NPU推理性能优化实践：从CPU下发瓶颈到算子级调优

本文针对Qwen2-1.5B模型在Atlas 800I A2单卡部署中的性能瓶颈展开分析，发现主要问题为下发延迟和算子执行效率。通过KAT自动调优和KSYS系统分析，识别出NUMA访问、缓存命中率等关键瓶颈，并提出绑核优化、内存绑定等解决方案。最终实现34%的TPOT性能提升，为NPU推理优化提供系统性方法，建议持续监控并开展更深层次的算子级优化。

#性能优化

Qwen3-Omni多模态推理性能优化实践：基于昇腾的P99时延与QPS双提升

在构建高并发、低延迟的多模态AI分析系统时，L1阶段的初筛环节对推理性能提出严苛要求。系统需在1分钟内完成音频与视频输入的联合理解，输出初步判定结果。本文基于Atlas 800I A2部署Qwen3-Omni原生全模态大模型，围绕关键算子瓶颈展开深度优化，实现性能突破。

#性能优化

Qwen3.5 MoE结构拆解和profiling分析

#性能优化 #人工智能

Qwen3.5 MoE结构拆解和profiling分析

#性能优化 #人工智能

Qwen3.5 MoE结构拆解和profiling分析

#性能优化 #人工智能

vllm/vllm-ascned 多轮工具调用失败问题分析与解决

在使用vllm/vllm-ascned进行多轮工具调用时，遇到了调用失败的问题。本文将详细描述问题现象、初步定位、根因分析及解决方案，帮助开发者解决类似问题。

Qwen3-Omni多模态推理性能优化实践：基于昇腾的P99时延与QPS双提升

#性能优化

共 19 条

请选择