登录社区云,与社区用户共同成长
邀请您加入社区
TVM/Triton/TileLang 各展所长
分块(Tiling)技术是优化GPU计算性能的核心方法,通过将大数据集分解为适合硬件处理的小块,显著减少内存访问延迟。其原理涉及显式内存层次管理和计算-通信重叠,在深度学习领域尤其适用于Transformer架构中的注意力机制计算。TileLang作为一种可组合平铺编程模型,提供了`T.alloc_shared`等指令实现精细内存控制,配合`T.Pipelined`流水线并行技术,在FlashML
最近Deepseekv3.2发布关注到TileLang,简单总结下;
TileLang
——TileLang
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net