
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
2024年12月26日,DeepSeek-V3横空出世,以其卓越性能备受瞩目。该模型发布即支持昇腾,用户可在昇腾硬件和MindIE推理引擎上实现高效推理,但在实际操作中,部署流程与常见问题困扰着不少开发者。本文将为你详细阐述昇腾 DeepSeek 模型部署的优秀实践。昇腾DeepSeek模型部署的常见问题及解决方案见。
在 MindIE 服务化运行过程中,为了及时掌握服务的运行状态、性能表现以及发现潜在问题,提供了服务监控指标查询接口(普罗(Prometheus)格式)。点击 Prometheus 安装目录下的 promethrus.exe 和 Grafana 安装目录下的bin/grafana-server.exe 启动 Prometheus 和 Grafana。修改 prometheus 安装目录下的 pro
原文链接:https://blog.csdn.net/wy746801669wy/article/details/149118056。GA:梯度累积,表示每个DP并行组内处理多少个MBS后更新梯度;GBS:全局批次大小,表示分布式训练中跨设备的总训练样本量;注意:EP不影响DP的计算,EP只影响MOE部分的专家分布。MBS:微批次大小,表示每个DP并行组内单次训练的样本量;注意:TP、PP、CP需
2024年12月26日,DeepSeek-V3横空出世,以其卓越性能备受瞩目。该模型发布即支持昇腾,用户可在昇腾硬件和MindIE推理引擎上实现高效推理,但在实际操作中,部署流程与常见问题困扰着不少开发者。本文将为你详细阐述昇腾 DeepSeek 模型部署的优秀实践。昇腾DeepSeek模型部署的常见问题及解决方案见。
的主要作用是在导入 vllm 模块时,对一些关键的环境变量和 PyTorch 配置进行设置和调整,以确保 vLLM 在不同的环境中能够正常运行,并避免一些潜在的问题。方法,当用户尝试访问该模块中未直接导入的属性时,会调用这个方法。解释了env_override的作用:设置一些通用的配置和环境变量,这些变量应该为 vllm 创建的所有进程以及与 vllm 工作进程交互的所有进程设置。定义了一个字典
mcore:为当前主要演进分支,推荐使用。ckpt_convert_distill_qwen_mcore2hf.sh: mcore到huggingface权重格式转换脚本。ckpt_convert_distill_qwen_hf2mcore.sh:huggingface到mcore权重格式转换脚本。修改data_convert_distill_qwen_instruction.sh中的参数。tun
2025年8月,经过SGLang社区与昇腾的共同努力,将SGLang的灵活编程框架与昇腾强大的异构算力深度融合,使能SGLang在昇腾平台上无缝运行大模型推理,并正式面向用户推出基于SGLang的大EP集群推理解决方案。当前用户可获取最新release版本的SGLang以体验低延迟、高吞吐的推理系统。
在 MindIE 服务化运行过程中,为了及时掌握服务的运行状态、性能表现以及发现潜在问题,提供了服务监控指标查询接口(普罗(Prometheus)格式)。点击 Prometheus 安装目录下的 promethrus.exe 和 Grafana 安装目录下的bin/grafana-server.exe 启动 Prometheus 和 Grafana。修改 prometheus 安装目录下的 pro
mcore:为当前主要演进分支,推荐使用。ckpt_convert_distill_qwen_mcore2hf.sh: mcore到huggingface权重格式转换脚本。ckpt_convert_distill_qwen_hf2mcore.sh:huggingface到mcore权重格式转换脚本。修改data_convert_distill_qwen_instruction.sh中的参数。tun
2025年8月,经过SGLang社区与昇腾的共同努力,将SGLang的灵活编程框架与昇腾强大的异构算力深度融合,使能SGLang在昇腾平台上无缝运行大模型推理,并正式面向用户推出基于SGLang的大EP集群推理解决方案。当前用户可获取最新release版本的SGLang以体验低延迟、高吞吐的推理系统。







