logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于vLLM-Ascend的Qwen3.5-397B模型Atlas 800I A2单机混部部署实践

本文档将介绍基于vLLM-Ascend的Qwen3.5-397B模型在Atlas 800I A2上的单机混部部署实践,包括支持的特性、特性配置、环境信息以及性能测试典型case。

基于vLLM-Ascend的Qwen3.5-397B模型Atlas 800I A3单机混部部署实践

本文档将介绍基于vLLM-Ascend的Qwen3.5-397B模型在Atlas 800I A3上的单机混部部署实践,包括支持的特性、特性配置、环境信息以及性能测试典型case。

Qwen3.5 MoE结构拆解和profiling分析

2026年,千问发布了Qwen3.5系列模型,其中MoE模型参数量更大,语义理解能力更强,同时由于每次前向计算只激活少量专家,推理速度有所保障。本文将围绕Qwen3.5模型的MoE部分展开,内容包括参数分析、结构分析、vllm实现流程和profiling拆解方法。本文基于transforms仓和vllm、vllm-ascend框架代码分析,请以官方代码仓为准。transformers仓中的Qwen

#性能优化#人工智能
NPU推理性能优化实践:从CPU下发瓶颈到算子级调优

本文针对Qwen2-1.5B模型在Atlas 800I A2单卡部署中的性能瓶颈展开分析,发现主要问题为下发延迟和算子执行效率。通过KAT自动调优和KSYS系统分析,识别出NUMA访问、缓存命中率等关键瓶颈,并提出绑核优化、内存绑定等解决方案。最终实现34%的TPOT性能提升,为NPU推理优化提供系统性方法,建议持续监控并开展更深层次的算子级优化。

#性能优化
Qwen3-Omni多模态推理性能优化实践:基于昇腾的P99时延与QPS双提升

在构建高并发、低延迟的多模态AI分析系统时,L1阶段的初筛环节对推理性能提出严苛要求。系统需在1分钟内完成音频与视频输入的联合理解,输出初步判定结果。本文基于Atlas 800I A2部署Qwen3-Omni原生全模态大模型,围绕关键算子瓶颈展开深度优化,实现性能突破。

#性能优化
Qwen3.5 MoE结构拆解和profiling分析

2026年,千问发布了Qwen3.5系列模型,其中MoE模型参数量更大,语义理解能力更强,同时由于每次前向计算只激活少量专家,推理速度有所保障。本文将围绕Qwen3.5模型的MoE部分展开,内容包括参数分析、结构分析、vllm实现流程和profiling拆解方法。本文基于transforms仓和vllm、vllm-ascend框架代码分析,请以官方代码仓为准。transformers仓中的Qwen

#性能优化#人工智能
Qwen3.5 MoE结构拆解和profiling分析

2026年,千问发布了Qwen3.5系列模型,其中MoE模型参数量更大,语义理解能力更强,同时由于每次前向计算只激活少量专家,推理速度有所保障。本文将围绕Qwen3.5模型的MoE部分展开,内容包括参数分析、结构分析、vllm实现流程和profiling拆解方法。本文基于transforms仓和vllm、vllm-ascend框架代码分析,请以官方代码仓为准。transformers仓中的Qwen

#性能优化#人工智能
Qwen3.5 MoE结构拆解和profiling分析

2026年,千问发布了Qwen3.5系列模型,其中MoE模型参数量更大,语义理解能力更强,同时由于每次前向计算只激活少量专家,推理速度有所保障。本文将围绕Qwen3.5模型的MoE部分展开,内容包括参数分析、结构分析、vllm实现流程和profiling拆解方法。本文基于transforms仓和vllm、vllm-ascend框架代码分析,请以官方代码仓为准。transformers仓中的Qwen

#性能优化#人工智能
vllm/vllm-ascned 多轮工具调用失败问题分析与解决

在使用vllm/vllm-ascned进行多轮工具调用时,遇到了调用失败的问题。本文将详细描述问题现象、初步定位、根因分析及解决方案,帮助开发者解决类似问题。

Qwen3-Omni多模态推理性能优化实践:基于昇腾的P99时延与QPS双提升

在构建高并发、低延迟的多模态AI分析系统时,L1阶段的初筛环节对推理性能提出严苛要求。系统需在1分钟内完成音频与视频输入的联合理解,输出初步判定结果。本文基于Atlas 800I A2部署Qwen3-Omni原生全模态大模型,围绕关键算子瓶颈展开深度优化,实现性能突破。

#性能优化
    共 19 条
  • 1
  • 2
  • 请选择