logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【vLLM-Ascend】vLLM-Ascend部署DeepSeek避坑指南:EngineCore握手超时完美解决

本文记录在昇腾 Atlas 800I A2 双机环境下,使用 vLLM-Ascend 0.13.0 部署 DeepSeek-V3.2-W8A8 时出现的 EngineCore 与前端进程握手超时 问题。通过排查 firewalld、iptables 及 13389 端口连通性,定位根因为 INPUT 链默认 REJECT 规则阻断节点间通信,并给出测试环境临时修复与生产环境精准放行端口的解决方案及

文章图片
【vLLM-Ascend】vLLM-Ascend部署DeepSeek避坑指南:EngineCore握手超时完美解决

本文记录在昇腾 Atlas 800I A2 双机环境下,使用 vLLM-Ascend 0.13.0 部署 DeepSeek-V3.2-W8A8 时出现的 EngineCore 与前端进程握手超时 问题。通过排查 firewalld、iptables 及 13389 端口连通性,定位根因为 INPUT 链默认 REJECT 规则阻断节点间通信,并给出测试环境临时修复与生产环境精准放行端口的解决方案及

文章图片
SGLang全面支持昇腾,使能大EP高性能推理

SGLang 社区与昇腾已完成深度协同,使 SGLang 在昇腾 NPU 上无缝运行大模型推理,并推出基于 SGLang 的大 EP 集群推理方案。本文介绍昇腾平台对 Qwen、LLaMA、DeepSeek 等模型的支持,以及 PD 分离、Overlap Scheduler、TP/DP Attention、DeepEP MoE 等核心加速特性,共建 sgl-kernel-npu 生态库,并提供 D

文章图片
#sglang#人工智能
【vLLM Ascend】vLLM-Omni全模态服务发布,昇腾环境极速落地指南

本文介绍 vLLM-Omni 全模态推理框架在昇腾 NPU 上的部署与体验。vLLM-Omni 将 vLLM 扩展至多模态与非自回归生成场景,支持文本、图像、音频、视频等异构输入输出。文章涵盖 Docker 环境搭建、vLLM-Omni 安装配置,并以 Qwen2.5-Omni 语音生成、Qwen-Image 文生图为例,提供完整命令与实操步骤,帮助开发者在昇腾设备上快速上手全模态模型推理。

文章图片
VeOmni全面支持昇腾,加速全模态大模型训练创新

本文介绍全模态开源训练框架 VeOmni 在昇腾 NPU 上的原生支持进展,涵盖 FSDP/EP/SP 等并行能力与 Qwen3-VL 等主流模型适配;并以 Qwen3-VL 30B 为例,手把手讲解环境安装、数据准备、权重下载与训练启动,验证昇腾平台训练效果与参考曲线一致。

文章图片
#人工智能
【vLLM-Ascend】Qwen3-30B-A3B 模型在异步训练场景下的性能优化实践

本文基于 Atlas 800T A2,围绕 Qwen3-30B-A3B MoE 模型在异步 RL 训练场景下的全链路调优,覆盖 vLLM-Ascend 推理侧 EP/TP 切分、MoE 算子与 HCCL AIV 通信优化,以及 FSDP 训练侧 GMM 融合、Ulysses 负载均衡与 Megatron 对比选型;并完成 Fully-Async 架构在昇腾 NPU 上的适配,通过 stalenes

文章图片
#性能优化
【MindSpeed+ vLLM-Ascend】Qwen3-Coder-Next模型上线,昇腾环境极速落地指南

Qwen3-Coder-Next 是面向编程智能体与本地开发的开源 MoE 代码模型,昇腾已同步完成 MindSpeed 与 vLLM-Ascend 适配。本文介绍模型核心特性,并手把手讲解在昇腾上的完整上手路径:MindSpeed-LLM 侧涵盖环境配置、HF 权重转换、预训练/微调数据预处理及训练推理脚本;vLLM-Ascend 侧涵盖 Docker 部署、离线/在线推理示例,助开发者快速尝鲜

文章图片
#人工智能
【MindSpeed】Mindspeed-LLM权重转换异常问题排查与解决方案

本文以 Qwen3-8B LoRA 微调后 mcore2hf 转换报错为例,系统分析 MindSpeed-LLM 权重转换流程中的 AssertionError: Num-layer must be greater than first-k-dense-replace 问题。经版本、参数与报错溯源排查,定位根因为 hf2mcore 与 mcore2hf 分别混用 convert_ckpt_v2.p

文章图片
#人工智能
【vLLM-Ascend+MindSpeed】昇腾后训练强化学习最佳实践

本文基于 Atlas 800T A3 完整跑通 verl + DAPO 框架下的 Qwen3-32B 强化学习训练,提供开箱镜像、全链路脚本、参数解读与性能调优指南,帮助开发者少踩坑、可复现地开展昇腾 RL 后训练。

文章图片
#人工智能
【vLLM-Ascend+MindSpeed】昇腾后训练强化学习最佳实践

本文基于 Atlas 800T A3 完整跑通 verl + DAPO 框架下的 Qwen3-32B 强化学习训练,提供开箱镜像、全链路脚本、参数解读与性能调优指南,帮助开发者少踩坑、可复现地开展昇腾 RL 后训练。

文章图片
#人工智能
    共 19 条
  • 1
  • 2
  • 请选择