AMD开发者小助手个人主页

@AMD_Developer

AMD开发者小助手

2026-04-27 14:52:35 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Day 0 支持 ERNIE-Image：在AMD Radeon AI PRO 3.4 安装 Diffusers 及依赖R9700 GPU上部署与验证文生图模型

原文作者：Zijun Wei, Huaqiang Fang, AIG摘要本文详细呈现了百度 ERNIE-Image 文生图大模型在 AMD Radeon AI PRO R9700（RDNA 4，32 GB GDDR6）上的部署与推理验证。

Qwen-Image 从推理到 LoRA 训练实战教程（AMD GPU × DiffSynth-Studio）

1. 从AMD Developer Cloud打开：https://amd-ai-academy.com/github/ROCm/gpuaidev/blob/main/docs/notebooks/fine_tune/qwen_image.ipynb。Linux官方支持系统要求：https://rocm.docs.amd.com/projects/install-on-linux/en/lates

福利｜110万美元奖金池！AMD E2E SpeedRun火力全开，等你刷新推理榜单！

utm_source=cn-ai-dev-hub&utm_medium=direct&utm_campaign=adp-aig&utm_term=join），查看预选赛阶段的参考 kernel，并通过 Popcorn CLI 完成结果提交。决赛选手将聚焦于所选LLM任务的端到端推理优化，包括DeepSeek-R1与Kimi K2.5，目标是在AMD GPU上实现标准化LLM推理基准的突破性性能。参

速度即护城河：AMD GPU 上的推理性能

基于以上优化与调优，AMD GPU 在 DeepSeek FP8 的分布式推理性能（InferenceX v2）在 7 天内获得显著提升，覆盖 1K/1K 与 8K/1K 两类场景。InferenceX 作为我们软件栈迭代速度的“试炼场”，用可复现的工程改进来验证端到端推理的提速。我们直接与vLLM、SGLang 集成，确保与标准开源工作流的即时兼容，同时在内核、通信与并行策略上持续优化。例如，我

GEAK HIP：将 GEAK 扩展到 HIP 代码优化

我们在Qwen3-32B 的 TP=2 设置下，基于 ROCm 的 AITER 框架[9]，对这些规则进行了测试，并将“智能体生成的启发式”与 AITER 的“默认启发式”以及“离线调优启发式”做对比。本文介绍如何使用面向 AI 的高效内核生成（Generating Efficient AI-centric Kernels，GEAK）智能体对 HIP 代码进行自动化优化，展示 GEAK 的智能体流

vLLM × ROCm：ROCm 已成为 vLLM 生态的一等支持平台

如果你关心具体部署策略和性能调优实践，可以参考以下相关文章：多模态推理加速（一行配置的优化）[4]，MoE 并行策略（TP/DP/PP/Expert Parallelism 指南）[5]， vLLM 0.9.x 在 AMD GPU 上的性能调优实践 [6]。在vLLM-omni 发布当天，社区就确保 AMD 用户“首发同享”：vLLM-omni 从一开始就为 AMD ROCm GPU 提供了稳定、

OpenClaw（ClawdBot）实战指南：如何在 AMD开发者云上用 vLLM 免费部署你的专属 Agent

接下来，在Droplet 上执行下面这条命令，从 HuggingFace 拉取经过剪枝的 MiniMax-M2.1 模型。本文将带你实操：如何在AMD Developer Cloud 上，借助企业级数据中心 GPU，AMD GPU（单卡 192GB 显存），免费运行一个强大的开源大模型，让你摆脱消费级 GPU 的限制。下面的所有步骤，都需要在你上一节已经创建好的 Droplet 上完成。现在，你可

Qwen 3.6 在 AMD GPU 的 Day 0 支持

相较前代 Qwen3.5-35B-A3B ，它在 agentic 编程与推理任务上获得显著提升。我们很高兴宣布：阿里巴巴最新的Qwen3.6 系列模型，Qwen3.6-35B-A3B 与 Qwen3.6-35B-A3B-FP8，已在 AMD GPU 实现 Day 0 支持。2. 访问ROCm AI 开发者中心: https://www.amd.com/zh-cn/developer/resourc

在本地运行万亿参数LLM：基于AMD Ryzen AI Max+ 的集群实战指南

从客户端的角度来看，唯一需要修改的是基础URL和API密钥。面向原型开发、科研与企业应用，本地自托管的开源 LLM（如 Kimi K2.5）有助于在不引入按 token 计费的前提下获得优秀的 AI 效果，同时将数据与计算留在本地，更易满足隐私与合规要求。在该配置下，调优n_batch 与n_ubatch，相较于基线设置（关闭Flash Attention，batch` 与 ubatch 为 51

使用 TileLang 在 AMD GPU 上快速开发高性能 Flash Attention

对开发者而言，TileLang 提供了一种全新的算子开发范式，在“不需要深入理解硬件细节”的前提下，就可以高效利用硬件性能，加速大模型在 AMD GPU 上的部署和性能释放。延迟大幅下降：TileLang 实现的延迟仅为 PyTorch 实现的约 37.1%，为 Triton 实现的约 65.5%，相较 PyTorch 提升约 2.7×，相较 Triton 提升约 1.53× [1]，充分体现了面

共 24 条

请选择