社区云

TileLang

2600_96323217 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-24 10:14:00

TileLang 调试经验谈，定位内核性能瓶颈的三个方法

本文分享 TileLang 在 AMD GPU 上的调试经验，利用 rocprof 精准定位内核性能瓶颈。通过动态分块、消除线程束发散及流水线重叠三大方法，有效解决内存墙与计算延迟问题，助力开发者实现大模型算子的高效优化。

#TileLang #性能优化 #GPU

5 
2600_96323192 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-23 18:44:46

嫌推理慢，试试用 TileLang 手写个算子优化一下

本文针对 AMD MI300X 大模型推理中的内存瓶颈，利用 TileLang 手写优化 Attention 算子。通过重构分块策略匹配 Wavefront 架构，显著降低延迟并提升 GPU 利用率，为高性能计算提供实战指南。

#TileLang

8 
2600_96323165 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-23 19:03:30

揭秘 TileLang 编译黑科技，如何让 AMD GPU 算子性能超越预期

本文揭秘 TileLang 编译黑科技，展示其如何通过智能调度与内存优化，显著提升 AMD GPU 算子性能。文章深入解析指令级并行、软件流水线及自动向量化技术，帮助开发者摆脱手动调优困境，在大模型推理场景中实现超越预期的算力表现。

#TileLang

8 
2600_96323227 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-24 11:03:00

TileLang 调试技巧，快速定位算子性能瓶颈

本文详解 TileLang 在 AMD GPU 上的算子调试技巧，利用 rocprof 精准定位 Bank Conflict 性能瓶颈。通过调整分块策略与引入 Padding 优化内存布局，成功消除冲突并大幅提升推理吞吐量，助力开发者实现从“跑通”到“跑快”的跨越。

#TileLang

5 
2600_96323217 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-24 09:45:30

TileLang 算子优化体验，让 MI300X 跑满性能的 tweaks

本文深入解析 TileLang 在 AMD MI300X 上的算子优化实践。针对通用算子水土不服问题，通过调整分块策略对齐 Wavefront 架构，显著提升显存带宽与推理吞吐量。文章分享 Attention 算子重构细节及社区共建经验，助力开发者榨干硬件性能。

#TileLang

166 

7 
2600_96323165 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-23 18:37:30

深扒 SGLang 源码，结合 TileLang 定制算子才是推理加速的终极奥义

本文深扒 SGLang 源码，揭示默认算子在 AMD MI300X 上的瓶颈。通过结合 TileLang 定制专属算子，优化指令调度与内存访问，成功将显存带宽利用率提升至 92%，实现推理加速的终极突破。

#TileLang

72 

1 
2600_96323217 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-24 10:00:30

TileLang 编写自定义算子，释放 AMD GPU 矩阵核心潜力

本文详解如何利用 TileLang 编写自定义算子，深度释放 AMD GPU 矩阵核心潜力。通过 LDS 优化与分块策略实战，解决 Wavefront 机制适配难题，显著提升 MI300X 等高端显卡的矩阵乘法性能，是开发者掌握高性能计算的关键指南。

#TileLang

53 
2600_96323165 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-23 19:08:30

别再问 AMD 显卡能不能跑 AI，SGLang 加 TileLang 组合拳给你答案

本文实测 SGLang 与 TileLang 在 AMD 显卡上的高效组合，打破生态偏见。通过原生适配与自定义算子优化，MI300X 在大模型推理中展现卓越性能与高并发稳定性，为开发者提供高性价比的 AI 基础设施新选择。

#TileLang

11 
2600_96323178 来自脑启社区

nanhubrain.csdn.net · 2026-06-18 14:08:39

不用重写 C++，用 TileLang 优化 AMD 算子实战

本文详解如何利用 TileLang 优化 AMD GPU 算子，无需重写 C++ 即可解决大模型推理中的性能瓶颈。通过分块策略对齐 Wavefront 及融合 Softmax 实战，显著降低长序列延迟，提升计算效率，是 AMD ROCm 平台高效开发的理想方案。

#TileLang

295 

6 
2600_96323227 来自脑启社区

nanhubrain.csdn.net · 2026-06-24 10:36:30

TileLang 算子优化入门，让 AMD GPU 跑得更快

本文详解 TileLang 在 AMD GPU 算子优化中的实战应用。针对 MI300X 架构特性，通过调整 Wavefront 映射与共享内存策略，显著提升 GEMM 等核心算子性能。掌握 TileLang 助力开发者突破硬件瓶颈，实现大模型推理加速。

#TileLang

289 

10 
2600_96323235 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-25 08:54:18

SGLang 与 TileLang 在 ROCm 生态中的适配现状

本文深入探讨 SGLang 与 TileLang 在 ROCm 7.x 生态中的适配现状。针对结构化生成与算子融合需求，分析两者在 AMD GPU 上的性能潜力、编译挑战及工程变通方案，为开发者提供超越 vLLM 的技术选型新视角。

#TileLang

16 
小助手来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-23 18:13:30

TileLang 编程入门，解锁 AMD GPU 的底层性能潜力

本文深入解析 TileLang 编程入门，助开发者解锁 AMD GPU 底层性能潜力。通过手动管理数据分块与共享内存，优化矩阵乘法算子，显著提升 MI300X 等硬件的推理效率，是突破通用库瓶颈、定制高性能内核的关键技术。

#TileLang #性能优化

9 
2600_96323227 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-24 11:22:00

从零开始在 GitHub 参与 TileLang 社区建设

本文记录从零开始参与 TileLang 社区建设的全过程。作者针对 AMD MI300X 架构长序列生成瓶颈，通过动态分块策略优化算子性能，提升吞吐量 26%。文章详解复现脚本编写、社区协作及 PR 提交技巧，助力开发者高效贡献开源生态。

#TileLang

6 
2600_96323227 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-24 10:50:30

SGLang 结合 TileLang 打造高吞吐推理引擎

本文详解如何结合 SGLang 调度框架与 TileLang 算子优化，在 AMD ROCm 环境下打造高吞吐推理引擎。通过自定义 Flash Attention 内核，显著降低长序列场景下的首字延迟并提升解码吞吐量，为构建高效大模型服务提供实战指南。

#TileLang

121 

4 
2600_96323217 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-24 10:28:00

TileLang 与 Triton 对比，为何选择前者优化 AMD 算子

本文深度对比 TileLang 与 Triton，解析为何在 AMD 算子优化中首选 TileLang。文章从语法抽象、编译效率及硬件适配度出发，展示 TileLang 如何简化开发流程并提升大模型推理性能，是 ROCm 生态下 GPU 加速的理想方案。

#TileLang

13 
2600_96323165 来自 2048 AI社区

2048ai.net · 2026-06-23 18:58:30

SGLang 推理框架在 AMD 显卡上的坑与宝，TileLang 优化是关键一招

本文深入解析 SGLang 推理框架在 AMD 显卡上的部署挑战，指出算子覆盖不足是核心痛点。通过引入 TileLang 进行自定义算子优化，有效解决 ROCm 环境下的性能瓶颈与兼容性问题，助力开发者在 MI300X 等硬件上实现高效的大模型推理落地。

#TileLang

15 
2600_96323165 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-23 18:48:00

TileLang 新手指南，三行代码让你的 AMD 显卡算子效率翻倍

本文详解 TileLang 新手指南，展示如何用三行代码在 AMD 显卡上实现算子效率翻倍。通过集成 ROCm 工具链与简洁语法，开发者可轻松优化矩阵乘法等张量计算，大幅降低 HIP C++ 开发门槛，释放 MI300X 等硬件极致性能。

#TileLang

9 
weixin_34310369 来自 CSDN-OPC开发者社区

opc.csdn.net · 2026-06-17 10:54:31

DeepSeek V4国产化深度解析：MXFP4、TileLang与MegaMoE实战指南

大语言模型在信创环境下的落地，核心挑战在于算力适配、推理效率与硬件生态兼容性。DeepSeek V4并非单纯参数升级，而是围绕国产芯片（昇腾910B/寒武纪MLU370）重构的工程化模型：通过MXFP4量化标准突破精度与硬件解耦瓶颈，借助TileLang领域特定语言实现‘一次编写、多端编译’的算子开发范式，结合MegaMoE融合内核显著降低国产集群通信开销。其技术价值体现在政务、金融、医疗等高确定

#TileLang

420 

5 
weixin_34289454 来自 CSDN-OPC开发者社区

opc.csdn.net · 2026-06-18 13:18:55

DeepSeek V4国产芯片适配与1M上下文工程实践

大模型长上下文推理是RAG、法律合同分析、技术文档理解等场景的核心能力，其本质受限于Attention计算复杂度O(N²)与KV缓存显存占用的双重瓶颈。近年来，CSA（Chunk Sparse Attention）和HCA（Hash-based Compressed Attention）等稀疏化与压缩技术成为突破128K‘生理极限’的关键路径；而TileLang等面向国产NPU架构的领域专用编译器

#TileLang

292 

9 
王洛堇来自 AI Agent技术社区

agent.csdn.net · 2026-06-21 16:59:58

DeepSeek V4架构深度解析：TileLang、Host Codegen与UMM三大核心

大模型推理引擎正从‘堆参数’迈向‘重写基础设施’的新阶段。TileLang DSL通过领域专用语言将计算图编译为定制化CUDA kernel，显著提升GPU利用率；Host Codegen则把Python动态校验编译为C++跳转表，在高并发API场景下降低98%调用开销；Unified Memory Manager（UMM）构建跨CPU/GPU/ARM64的统一虚拟地址空间，解决异构设备内存碎片与

#TileLang

326 

7 
mmjang 来自 AI Agent技术社区

agent.csdn.net · 2026-06-21 12:22:22

DeepSeek V4国产化实测：MXFP4量化与TileLang调度深度解析

大模型推理优化是AI工程落地的核心挑战，其本质在于计算、存储与硬件协同的系统性设计。MXFP4作为一种面向内存带宽受限场景的动态块浮点量化格式，通过分组指数共享与非线性尾数量化，在保持浮点兼容性的同时显著提升国产CPU/GPU的内存带宽利用率；TileLang则作为国产芯片原生调度语言，将算子融合、缓存对齐与硬件约束编译进计算图，实现‘看菜下饭’式细粒度调度。二者共同构成DeepSeek V4全栈

#TileLang

261 

8 
暴躁老哥锅得钢来自 AI Agent技术社区

agent.csdn.net · 2026-06-21 16:02:50

DeepSeek V4国产化适配全解析：MXFP4、TileLang与MegaMoE技术实践

大模型推理优化本质上是计算、存储与通信的协同工程。在国产AI芯片加速落地的背景下，混合精度量化（如MXFP4）、硬件亲和型张量语言（如TileLang）和异构通信感知的稀疏架构（如MegaMoE）正成为突破算力瓶颈的关键技术路径。这些方法不仅降低显存占用、提升端到端吞吐，更通过编译器级软硬协同，在昇腾等国产NPU上实现确定性低延迟与高资源利用率。其技术价值已从实验室走向VSCode插件、Trae

#TileLang

211 

9 
2600_96323178 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-22 09:20:03

TileLang 算子优化实战，让 AMD GPU 跑得更快

本文深入解析 TileLang 在 AMD GPU 上的算子优化实战。针对通用算子水土不服问题，通过矩阵分块与共享内存策略重写 Attention 算子，显著降低长序列推理延迟，大幅提升吞吐量，是释放 AMD 硬件潜力的关键技术。

#TileLang

9 
2600_96323227 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-18 18:49:00

TileLang 编程初探，自定义算子在 ROCm 上的实现

本文深入探讨 TileLang 编程在 ROCm 生态中的应用，详解自定义算子在 AMD GPU 上的实现流程。涵盖环境搭建、内核编写及 PyTorch 集成，通过实战案例展示如何利用 TileLang 优化大模型推理性能，显著降低显存带宽占用并提升效率。

#TileLang

6 
2600_96323174 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-15 18:04:41

三十分钟上手 TileLang，我的第一个 GPU 算子诞生记

本文记录算法工程师三十分钟上手 TileLang 开发首个 GPU 算子的实战经历。通过 Pythonic 语法与 JIT 编译技术，TileLang 简化了矩阵乘法等内核编写流程，自动处理内存管理与流水线优化，显著降低 CUDA 编程门槛并提升异构计算效率。

#TileLang

180 

9 
2600_96323235 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-17 08:52:13

TileLang 快速入门与实战指南

TileLang：简化高性能计算的瓦片编程（摘要） TileLang是一种专注于高性能计算优化的领域特定语言，通过"瓦片化"数据抽象显著简化并行编程。其核心创新在于将复杂的内存管理转化为声明式的分块操作，使开发者能够专注算法逻辑而非底层硬件细节。该语言特别适用于矩阵运算、图像处理和科学模拟等计算密集型任务，通过数据局部性优化提升缓存命中率。文章系统介绍了TileLang的开发环境搭建、基础语法结构

#TileLang

209 

7 
2600_96323235 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-16 08:42:47

TileLang 编程基础与矩阵计算实战演练

本文介绍了TileLang这一面向GPU高性能计算的编程语言，其核心优势在于提供高层次的分块抽象，简化并行计算开发。通过声明式语法，开发者只需定义数据分块策略，无需手动管理线程索引和内存同步。文章以矩阵乘法为例，展示了TileLang简化代码逻辑的同时自动优化内存访问的特性，并强调理解内存布局和分块尺寸对性能的关键影响。最后提出调试建议：使用性能分析工具优化SM占用率，正确处理边界条件，避免过度优

#TileLang

306 

9 
2600_96323213 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-16 18:40:57

从训练到推理，基于 TileLang 与 LLaMA-Factory 的全链路开发

本文详解基于 TileLang 与 LLaMA-Factory 的全链路开发流程。从自定义算子突破硬件限制，到 ROCm 环境下的高效微调，再到 vLLM 推理部署，构建 AMD GPU 生态闭环，助力开发者实现高性能 AI 应用落地。

#TileLang #LLaMA-Factory

252 

8 
2600_96323174 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-15 18:03:34

手摸手教你用 TileLang 优化显存，新手也能看懂

本文详解如何用 TileLang 优化显存，通过 Python 语法封装 CUDA 底层细节。文章演示矩阵乘法算子实战，利用分层抽象与流水线技术提升 GPU 性能，帮助新手轻松掌握显存优化核心原理。

#TileLang

167 

8 
2600_96323174 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-15 18:03:15

别死磕 CUDA 了，用 TileLang 写个矩阵乘法试试

本文分享使用 TileLang 编写矩阵乘法的实战体验，展示如何以 Pythonic 风格替代繁琐的 CUDA 编程。通过声明式语法自动处理内存管理与线程同步，仅需几十行代码即可实现高性能 GEMM，大幅降低 GPU 算子开发门槛，是提升开发效率的理想选择。

#TileLang

233 

9 
小助手来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-16 09:16:39

手搓高性能算子，TileLang 在 AMD GPU 上的编译优化初体验

本文深入探讨 TileLang 在 AMD GPU 上的编译优化实践。通过手搓高性能算子，利用精细化分块策略与共享内存管理，解决通用编译器瓶颈。实测分析不同 Block 配置对矩阵乘法性能的影响，助力开发者挖掘 ROCm 平台极致算力。

#TileLang

314 

8 
2600_96323174 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-15 18:04:59

抛弃繁琐模板，TileLang 让混合精度计算变简单

本文详解 TileLang 如何简化大模型推理中的混合精度计算。通过声明式 DSL 自动处理 FP8/FP16 转换与内存对齐，开发者可快速构建高效算子，显著提升显存利用率与计算速度，是优化 ROCm 平台性能的理想选择。

#TileLang

256 

9 
2600_96323174 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-06-15 18:04:04

ROCm 用户福音，TileLang 跨平台算子开发实录

本文记录 TileLang 在 ROCm 环境的跨平台算子开发实战。通过详解环境配置、依赖陷阱及 GEMM 算子适配，验证其“一次编写，多处运行”能力。文章分享编译排错经验，助力 AMD 显卡用户高效进行高性能算子开发，打破硬件生态壁垒。

#TileLang

323 

9 
HyperAI超神经来自 AMD开发者中国社区

devpress.csdn.net/amd · 2025-06-04 13:56:59

Meet AI Compiler丨跨硬件的统一编译生态，TVM/Triton/TileLang 各展所长

TVM/Triton/TileLang 各展所长

#Triton #TileLang

2405 

65 
weixin_30920853 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2026-05-18 10:53:39

TileLang编程模型与FlashMLA优化实践

分块（Tiling）技术是优化GPU计算性能的核心方法，通过将大数据集分解为适合硬件处理的小块，显著减少内存访问延迟。其原理涉及显式内存层次管理和计算-通信重叠，在深度学习领域尤其适用于Transformer架构中的注意力机制计算。TileLang作为一种可组合平铺编程模型，提供了`T.alloc_shared`等指令实现精细内存控制，配合`T.Pipelined`流水线并行技术，在FlashML

#TileLang

680 

5 
GaryGao99 来自 AMD开发者中国社区

devpress.csdn.net/amd · 2025-09-30 15:15:26

TileLang简介

最近Deepseekv3.2发布关注到TileLang，简单总结下；

#TileLang #python

944 

5 

标签介绍

TileLang

——TileLang

热门标签

关于我们

联系我们（工作时间：8:30-22:00）

400-660-0108 kefu@csdn.net

2600_96323217 来自 AMD开发者中国社区

2600_96323192 来自 AMD开发者中国社区

2600_96323165 来自 AMD开发者中国社区

2600_96323227 来自 AMD开发者中国社区

2600_96323217 来自 AMD开发者中国社区

2600_96323165 来自 AMD开发者中国社区

2600_96323217 来自 AMD开发者中国社区

2600_96323165 来自 AMD开发者中国社区

2600_96323178 来自 脑启社区

2600_96323227 来自 脑启社区

2600_96323235 来自 AMD开发者中国社区

小助手 来自 AMD开发者中国社区

2600_96323227 来自 AMD开发者中国社区

2600_96323227 来自 AMD开发者中国社区

2600_96323217 来自 AMD开发者中国社区

2600_96323165 来自 2048 AI社区

2600_96323165 来自 AMD开发者中国社区

weixin_34310369 来自 CSDN-OPC开发者社区

weixin_34289454 来自 CSDN-OPC开发者社区

王洛堇 来自 AI Agent技术社区

mmjang 来自 AI Agent技术社区

暴躁老哥锅得钢 来自 AI Agent技术社区

2600_96323178 来自 AMD开发者中国社区

2600_96323227 来自 AMD开发者中国社区

2600_96323174 来自 AMD开发者中国社区

2600_96323235 来自 AMD开发者中国社区

2600_96323235 来自 AMD开发者中国社区

2600_96323213 来自 AMD开发者中国社区

2600_96323174 来自 AMD开发者中国社区

2600_96323174 来自 AMD开发者中国社区

小助手 来自 AMD开发者中国社区

2600_96323174 来自 AMD开发者中国社区

2600_96323174 来自 AMD开发者中国社区

HyperAI超神经 来自 AMD开发者中国社区

weixin_30920853 来自 AMD开发者中国社区

GaryGao99 来自 AMD开发者中国社区

2600_96323178 来自脑启社区

2600_96323227 来自脑启社区

小助手来自 AMD开发者中国社区

王洛堇来自 AI Agent技术社区

暴躁老哥锅得钢来自 AI Agent技术社区

小助手来自 AMD开发者中国社区

HyperAI超神经来自 AMD开发者中国社区