AMD开发者云部署Gemma4大模型

鸣~~~啊

363人浏览 · 2026-06-10 19:51:55

鸣~~~啊 · 2026-06-10 19:51:55 发布

通过魔搭账号登录后新人赠送10小时云算力

进入jupyter后，新建一个终端，输入以下命令检查显卡情况

amd-smi

并检查pytorch是否识别AMD显卡

python -c "import torch; print('PyTorch:', torch.__version__); print('ROCm available:', torch.cuda.is_available()); print('Device:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A')"

在云服务器环境中安装魔搭ModelScope，安装后输入命令安装Gemma4

modelscope download --model google/gemma-4-E4B-it --cache_dir "./models"

卸载重装torchvision后确保vLLM服务为最新，然后启动服务

vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it

这里需要等待一会，直到出现 Application startup complete 就可以下一步了

打开一个新终端，输入命令

vllm chat --url http://localhost:8000/v1 --model gemma-4-E4B-it

等到出现

就可以进行对话了

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

VLLMService Operator 开发第六篇：给模型服务增加 Service 自动创建能力

做到这里，VLLMService Operator 已经不只是创建 Deployment 了，它开始具备完整服务编排的雏形。-> Pod-> Pod-> Service这一步非常关键，因为 Service 是后续接入流量入口的基础。没有 Service，HTTPRoute 就没有稳定的后端目标；-> Pod-> Service-> Gateway也就是说，Service 是从“模型 Pod 能跑起

AMD开发者中国社区

VLLMService Operator 开发第五篇：部署 Operator 并验证模型服务

存储准备完成后，就可以创建 VLLMService 资源了。metadata:spec:labels:port: 8000resources:requests:cpu: "2"limits:cpu: "4"storage:这里需要明确一点：VLLMService 本身只是用户声明的期望状态，它并不会直接运行模型。真正运行模型的是 Operator 根据这个 VLLMService 自动创建出来的

AMD开发者中国社区

Higress v2.2.3 发布：AI Gateway 能力增强，Gateway API 及其推理扩展持续打磨

Higress v2.2.3 版本发布，带来多项核心更新：新增 AI Gateway 的 vLLM 协议透传和上下文限制插件，增强 AI 安全防护与负载均衡；优化 Gateway API 隔离与推理路由配置；改进 Ingress 迁移体验；加固安全认证组件与 TLS 校验；修复多项 Console 问题。社区层面，Higress 正式入驻 CNCF Sandbox。