手把手教你用 HIPify 把 CUDA 代码迁到 ROCm

2600_96323227

97人浏览 · 2026-06-24 10:30:31

2600_96323227 · 2026-06-24 10:30:31 发布

从 CUDA 到 HIP：用 hipify-clang 迈出迁移第一步

很多刚拿到 AMD Instinct 显卡的开发者，面对满工程量的 CUDA 代码，第一反应往往是头大：“难道要逐行重写几千个内核？”这种焦虑完全正常。但在 ROCm 生态日益成熟的今天，我们其实不需要做这种苦力活。AMD 官方提供的 hipify 工具链，尤其是 hipify-clang，已经能帮我们自动化完成 90% 以上的语法转换工作。

这篇文章不聊宏大的生态愿景，只聚焦最落地的实操：如何安装工具、运行转换脚本、处理那些自动化工具搞不定的“硬骨头”，最后跑通一个真正的 Hello World。这是我自己在迁移初期踩坑后总结出的最小可行路径，希望能帮你节省几个小时的调试时间。

环境准备与工具安装

在开始之前，确保你的系统已经正确安装了 ROCm 驱动栈。如果你还在为驱动报错头疼，建议先回头检查 rocminfo 是否能正常输出 GPU 信息。确认环境无误后，我们需要安装 hipify-clang。

在大多数基于 Debian/Ubuntu 的系统上，如果已添加 ROCm 软件源，直接通过包管理器安装即可：

sudo apt update
sudo apt install hipify-clang

安装完成后，输入 hipify-clang --version 验证是否成功。这个工具的本质是一个基于 Clang 的转换器，它会解析你的 C++/CUDA 源码，识别特定的 CUDA API（如 cudaMalloc、<<<>>> 启动配置等），并将其替换为等效的 HIP 接口（如 hipMalloc）。相比老版本的 hipify-perl（基于正则替换），hipify-clang 能理解代码语义，对模板和复杂宏的处理更加稳健。

执行自动化转换

假设你有一个名为 vector_add.cu 的简单 CUDA 项目。转换过程非常简单，只需指定输入文件和输出目录：

hipify-clang vector_add.cu --output-directory=./hip_src

如果你的项目结构比较复杂，包含多个子目录，可以直接指向源码根目录：

hipify-clang ./src --output-directory=./hip_src --cuda-path=/opt/rocm

运行结束后，去 ./hip_src 目录下看看，你会发现生成了对应的 .hip 文件或者修改后的 .cpp 文件。打开文件对比一下，原本熟悉的 cudaMemcpy 变成了 hipMemcpy，__global__ 关键字虽然保留但上下文已适配 HIP 运行时，甚至连 dim3 block(256) 这样的启动配置也被自动转换成了 HIP 兼容的写法。

对于标准的向量加法、矩阵乘法这类通用算子，转换准确率极高，几乎不需要手动干预。但这只是第一步，真正的挑战往往藏在细节里。

人工校验与典型报错修复

自动化不是魔法，它无法处理所有情况。在我实际的迁移经历中，以下三类问题最常出现，需要人工介入：

特定库函数的缺失：如果你的代码依赖 cuBLAS 的高级特性或 Thrust 的某些非标准扩展，hipify 可能会留下注释标记或直接跳过。这时需要手动将 cublasSgemm 替换为 rocblas_sgemm，并引入 <hipblas/hipblas.h> 头文件。注意参数顺序和句柄初始化的差异，ROCm 的句柄创建通常更显式。
内联汇编与架构指令：某些高性能算子手写了 PTX 汇编。HIP 不支持直接嵌入 PTX，必须重写为 GCN 汇编或使用 HIP Intrinsics。遇到这种情况，建议先暂时用标准 C++ 实现替代，保证逻辑跑通，后续再用 TileLang 或手写 HIP 内核进行性能优化。
编译报错中的“隐形”依赖：初次编译转换后的代码时，经常会遇到 undefined reference 错误。这通常是因为链接器没找到 HIP 运行时库。确保在 CMakeLists.txt 或 Makefile 中正确链接了 hip::device 和 rocblas 等目标。例如在 CMake 中：
```
find_package(hip REQUIRED)
target_link_libraries(my_app PRIVATE hip::device)
```

还有一个容易被忽视的点是内存管理语义。虽然 hipMalloc 和 cudaMalloc 用法相似，但在多卡环境下，HIP 对设备可见性的控制更为严格。如果遇到段错误，检查是否漏掉了 hipSetDevice 的调用。

最小可运行的 Hello World 示例

为了验证整个流程，我们来写一个最简化的向量加法示例。这是迁移工作的"Hello World"，能跑通它，就意味着你的工具链和环境基本就绪。

新建文件 vector_add.hip：

#include <hip/hip_runtime.h>
#include <iostream>

#define WIDTH 1024
#define THREADS_PER_BLOCK 256

__global__ void VecAdd(float* A, float* B, float* C) {
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if (i < WIDTH) {
        C[i] = A[i] + B[i];
    }
}

int main() {
    float *A, *B, *C;
    float *d_A, *d_B, *d_C;
    size_t size = WIDTH * sizeof(float);

    // 主机内存分配
    A = (float*)malloc(size);
    B = (float*)malloc(size);
    C = (float*)malloc(size);

    for (int i = 0; i < WIDTH; i++) {
        A[i] = i * 1.0f;
        B[i] = i * 2.0f;
    }

    // 设备内存分配 (HIP API)
    hipMalloc((void**)&d_A, size);
    hipMalloc((void**)&d_B, size);
    hipMalloc((void**)&d_C, size);

    // 数据拷贝
    hipMemcpy(d_A, A, size, hipMemcpyHostToDevice);
    hipMemcpy(d_B, B, size, hipMemcpyHostToDevice);

    // 内核启动
    int blocks = (WIDTH + THREADS_PER_BLOCK - 1) / THREADS_PER_BLOCK;
    VecAdd<<<blocks, THREADS_PER_BLOCK>>>(d_A, d_B, d_C);

    // 结果回拷
    hipMemcpy(C, d_C, size, hipMemcpyDeviceToHost);

    // 验证结果
    bool success = true;
    for (int i = 0; i < WIDTH; i++) {
        if (C[i] != A[i] + B[i]) {
            success = false;
            break;
        }
    }
    
    std::cout << "Result: " << (success ? "Success!" : "Failed!") << std::endl;

    // 释放资源
    hipFree(d_A); hipFree(d_B); hipFree(d_C);
    free(A); free(B); free(C);

    return 0;
}

编译命令如下（确保 hipcc 在路径中）：

hipcc vector_add.hip -o vector_add
./vector_add

如果终端输出了 Result: Success!，恭喜你，你已经成功完成了从 CUDA 到 HIP 的第一次跨越。这不仅仅是一个程序的运行，更是你进入 AMD 高性能计算生态的入场券。接下来的路，无论是接入 SGLang 构建推理服务，还是利用 LLaMA-Factory 进行模型微调，基础都已经打牢了。

200小时GPU算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper

文章海报

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

主流大模型推理部署框架：vLLM、SGLang、TensorRT-LLM、ollama、XInference

本文系统梳理了当前主流的大模型推理部署框架，包括vLLM、SGLang、TensorRT-LLM、Ollama、XInference等。vLLM基于PyTorch，采用PagedAttention和ContinuousBatching技术，适合高并发企业级应用；SGLang通过RadixAttention优化缓存复用，擅长多轮交互场景；TensorRT-LLM由NVIDIA深度优化，在GPU上性能