TileLang矩阵乘法优化：从基础GEMM到SplitK实现

你是否在处理大规模矩阵运算时遇到过性能瓶颈？是否想知道如何充分利用GPU算力提升矩阵乘法效率？本文将带你深入了解TileLang（领域特定语言，Domain-specific language）如何通过基础GEMM（General Matrix Multiplication，通用矩阵乘法）实现到SplitK优化的完整过程，帮助你掌握高性能GPU内核开发的关键技术。读完本文后，你将能够：理解Tile

姬牧格Ivy

389人浏览 · 2025-10-10 01:01:07

姬牧格Ivy · 2025-10-10 01:01:07 发布

TileLang矩阵乘法优化：从基础GEMM到SplitK实现

【免费下载链接】tilelang Domain-specific language designed to streamline the development of high-performance GPU/CPU/Accelerators kernels 项目地址: https://gitcode.com/GitHub_Trending/ti/tilelang

基础GEMM实现

矩阵乘法是深度学习、科学计算等领域的核心运算，其性能直接影响整个应用的效率。TileLang提供了简洁而强大的接口，帮助开发者快速实现高性能GEMM内核。

基本实现原理

TileLang的GEMM实现基于分块矩阵乘法思想，将大矩阵分割为更小的块（block），通过共享内存（shared memory）提高数据复用率，减少全局内存访问。核心步骤包括：矩阵分块、数据加载到共享内存、块矩阵乘法计算、结果累加。

代码示例

以下是TileLang基础GEMM实现的核心代码，完整代码可查看examples/gemm/example_gemm.py：

@tilelang.jit(out_idx=[-1])
def matmul(M, N, K, block_M, block_N, block_K, dtype="float16", accum_dtype="float"):
    @T.prim_func
    def gemm(A: T.Tensor((M, K), dtype), B: T.Tensor((K, N), dtype), C: T.Tensor((M, N), dtype)):
        with T.Kernel(T.ceildiv(N, block_N), T.ceildiv(M, block_M), threads=128) as (bx, by):
            A_shared = T.alloc_shared((block_M, block_K), dtype)
            B_shared = T.alloc_shared((block_K, block_N), dtype)
            C_local = T.alloc_fragment((block_M, block_N), accum_dtype)
            
            T.clear(C_local)
            for k in T.Pipelined(T.ceildiv(K, block_K), num_stages=3):
                T.copy(A[by * block_M, k * block_K], A_shared)
                T.copy(B[k * block_K, bx * block_N], B_shared)
                T.gemm(A_shared, B_shared, C_local)
            
            T.copy(C_local, C[by * block_M, bx * block_N])
    return gemm

在上述代码中，T.Kernel定义了内核的网格维度，T.alloc_shared分配共享内存，T.Pipelined实现了数据加载和计算的流水线操作，有效隐藏了内存访问延迟。

SplitK优化策略

当矩阵维度K较大时，基础GEMM实现可能无法充分利用GPU的并行计算资源。SplitK优化通过将K维度分割为多个子问题并行计算，显著提高了GPU的利用率和运算效率。

SplitK原理

SplitK将K维度均匀分割为split_k个子部分，每个子部分独立进行矩阵乘法运算，最后将结果累加。这种方式可以增加并行度，减少每个线程块的计算量，从而提高缓存利用率和指令吞吐量。

基础SplitK实现

以下是TileLang基础SplitK实现的核心代码，完整代码可查看examples/gemm_splitk/example_tilelang_gemm_splitk.py：

@tilelang.jit
def matmul(M, N, K, block_M, block_N, block_K, split_k, dtype="float16", accum_dtype="float", out_dtype="float32"):
    splitK = K // split_k
    
    @T.prim_func
    def main(A: T.Tensor((M, K), dtype), B: T.Tensor((N, K), dtype), C: T.Tensor((M, N), out_dtype)):
        with T.Kernel(T.ceildiv(N, block_N), T.ceildiv(M, block_M), split_k, threads=128) as (bx, by, bz):
            A_shared = T.alloc_shared((block_M, block_K), dtype)
            B_shared = T.alloc_shared((block_K, block_N), dtype)
            C_shared = T.alloc_shared((block_M, block_N), out_dtype)
            C_local = T.alloc_fragment((block_M, block_N), accum_dtype)
            
            T.clear(C_local)
            for ko in T.Pipelined(T.ceildiv(splitK, block_K), num_stages=0):
                T.copy(A[by * block_M, bz * splitK + ko * block_K], A_shared)
                T.copy(B[bz * splitK + ko * block_K, bx * block_N], B_shared)
                T.gemm(A_shared, B_shared, C_local)
            
            T.copy(C_local, C_shared)
            
            for i, j in T.Parallel(block_M, block_N):
                T.atomic_add(C[by * block_M + i, bx * block_N + j], C_shared[i, j])
    return main

与基础GEMM相比，SplitK实现的内核网格维度增加了split_k维度（bz），每个bz对应K维度的一个子部分。计算完成后，通过T.atomic_add原子操作将各子部分结果累加至输出矩阵C。

向量化原子加法优化

为进一步提高SplitK的性能，TileLang提供了向量化原子加法优化，通过一次操作完成多个元素的原子加法，减少原子操作的开销。相关代码可查看examples/gemm_splitk/example_tilelang_gemm_splitk_vectorize_atomicadd.py，核心优化点如下：

# 向量化原子加法，替换循环内的单个原子操作
T.atomic_add(C[by * block_M, bx * block_N], C_shared)

这种优化将C_shared中的块数据整体原子添加到输出矩阵C的对应位置，避免了循环遍历每个元素的原子操作，有效提高了并行效率。

性能对比与分析

为了直观展示SplitK优化的效果，我们可以参考项目中的性能测试数据。下图展示了不同优化策略下矩阵乘法的性能对比（图片来源：项目内部测试数据）：

从图中可以看出，相比基础GEMM实现，SplitK优化（尤其是结合向量化原子加法的优化）在较大K维度下能显著提升性能，最高可实现2倍以上的加速比。

总结与展望

本文详细介绍了TileLang从基础GEMM到SplitK优化的矩阵乘法实现过程。通过分块矩阵乘法和共享内存利用，基础GEMM实现已经具备较高的性能；而SplitK优化通过增加并行度和优化原子操作，进一步挖掘了GPU的计算潜力。

未来，TileLang将继续优化矩阵乘法等核心运算的性能，探索更多如自动分块大小选择、混合精度计算等高级优化策略。如果你对TileLang感兴趣，可以通过以下资源深入学习：

官方文档：docs/index.md
更多示例：examples/
源码仓库：https://gitcode.com/GitHub_Trending/ti/tilelang

希望本文能帮助你更好地理解和使用TileLang进行高性能GPU内核开发。如果你有任何问题或建议，欢迎在项目仓库中提交issue或参与贡献。

点赞、收藏、关注，获取更多TileLang高性能计算技巧！下期预告：TileLang稀疏矩阵乘法优化。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

【2026最新】本地部署大模型该选哪个？Ollama / vLLM / llama.cpp 深度对比（附选型指南）

随着开源大模型的爆发式增长（Llama、Qwen、DeepSeek、Mistral……），越来越多的开发者开始在本地或私有服务器上部署 LLM。Ollama、vLLM、llama.cpp，我该用哪个？网上的文章要么只讲一个，要么比较得一笔带过。本文将从原理、性能、适用场景三个维度，给出一份真正能指导选型的深度对比。场景推荐方案个人本机玩模型Ollama，没有之一没有 GPU / CPU 部署lla

AMD开发者中国社区

PyTorch版U-Net多类别图像分割训练工程（含数据加载、模型定义、评估与ONNX导出）

直接可用的PyTorch U-Net多类别语义分割完整训练工程，支持医学影像、遥感图像等常见场景。包内包含标准数据加载器（data_loading.py）、自定义预处理（custom_transforms.py）、U-Net主干模型（unet.py）、加权交叉熵损失（loss.py）、学习率动态调整（lr_scheduler.py）、训练日志与曲线可视化（summaries.py、curve/）、