DanteQiu62 个人主页

@DanteQiu62

DanteQiu62

2024-07-30 09:30:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3-VL-235B-A22B-Instruct-w8a8-QuaRot 单机部署

本文介绍了在昇腾单机服务器上部署Qwen3-VL-235B-A22B-Instruct-w8a8-QuaRot模型。

GLM-5-w8a8 双机 DP=2 部署

背景：本文介绍了在昇腾NPU环境下，基于vLLM框架实现双机DP=2部署GLM-5-w8a8模型的具体方法。该模型采用w8a8量化技术，能够在保证推理精度的前提下有效降低显存占用。通过双机数据并行部署，可以突破单机显存限制，支撑更大规模模型的稳定运行。使用场景：本方案适用于昇腾NPU上的vLLM模型部署场景，特别适合需要跨机扩展推理能力的生产环境。GLM-5-w8a8模型可用于对话生成、文本理解等

GLM-5-w8a8 双机 DP=2 部署

背景：本文介绍了在昇腾NPU环境下，基于vLLM框架实现双机DP=2部署GLM-5-w8a8模型的具体方法。该模型采用w8a8量化技术，能够在保证推理精度的前提下有效降低显存占用。通过双机数据并行部署，可以突破单机显存限制，支撑更大规模模型的稳定运行。使用场景：本方案适用于昇腾NPU上的vLLM模型部署场景，特别适合需要跨机扩展推理能力的生产环境。GLM-5-w8a8模型可用于对话生成、文本理解等

GLM-5-w8a8 双机 DP=2 部署

背景：本文介绍了在昇腾NPU环境下，基于vLLM框架实现双机DP=2部署GLM-5-w8a8模型的具体方法。该模型采用w8a8量化技术，能够在保证推理精度的前提下有效降低显存占用。通过双机数据并行部署，可以突破单机显存限制，支撑更大规模模型的稳定运行。使用场景：本方案适用于昇腾NPU上的vLLM模型部署场景，特别适合需要跨机扩展推理能力的生产环境。GLM-5-w8a8模型可用于对话生成、文本理解等

GLM-5-w8a8 双机 DP=2 部署

背景：本文介绍了在昇腾NPU环境下，基于vLLM框架实现双机DP=2部署GLM-5-w8a8模型的具体方法。该模型采用w8a8量化技术，能够在保证推理精度的前提下有效降低显存占用。通过双机数据并行部署，可以突破单机显存限制，支撑更大规模模型的稳定运行。使用场景：本方案适用于昇腾NPU上的vLLM模型部署场景，特别适合需要跨机扩展推理能力的生产环境。GLM-5-w8a8模型可用于对话生成、文本理解等

GLM-5-w8a8 双机 DP=2 部署

背景：本文介绍了在昇腾NPU环境下，基于vLLM框架实现双机DP=2部署GLM-5-w8a8模型的具体方法。该模型采用w8a8量化技术，能够在保证推理精度的前提下有效降低显存占用。通过双机数据并行部署，可以突破单机显存限制，支撑更大规模模型的稳定运行。使用场景：本方案适用于昇腾NPU上的vLLM模型部署场景，特别适合需要跨机扩展推理能力的生产环境。GLM-5-w8a8模型可用于对话生成、文本理解等

DeepSeek-V4-Flash-W8A8 双机 DP=2 部署

本文介绍了在昇腾双机8卡服务器上部署DeepSeek-V4-Flash-W8A8。

MiniMax-M2.7-W8A8 双机 DP=2 部署

本文介绍了在昇腾双机8卡服务器上部署MiniMax-M2.7-W8A8。适配：Ascend 910B，双机 16 卡 = TP=8 × DP=2镜像：`quay.io/ascend/vllm-ascend:v0.18.0rc1`

DeepSeek-V4-Flash-W8A8 双机 DP=2 部署

本文介绍了在昇腾双机8卡服务器上部署DeepSeek-V4-Flash-W8A8。

DeepSeek-V4-Flash-W8A8 双机 DP=2 部署

本文介绍了在昇腾双机8卡服务器上部署DeepSeek-V4-Flash-W8A8。

共 27 条

1
2
3

请选择