logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

抛弃繁琐模板,TileLang 让混合精度计算变简单

本文详解 TileLang 如何简化大模型推理中的混合精度计算。通过声明式 DSL 自动处理 FP8/FP16 转换与内存对齐,开发者可快速构建高效算子,显著提升显存利用率与计算速度,是优化 ROCm 平台性能的理想选择。

#TileLang
ROCm 用户福音,TileLang 跨平台算子开发实录

本文记录 TileLang 在 ROCm 环境的跨平台算子开发实战。通过详解环境配置、依赖陷阱及 GEMM 算子适配,验证其“一次编写,多处运行”能力。文章分享编译排错经验,助力 AMD 显卡用户高效进行高性能算子开发,打破硬件生态壁垒。

#TileLang
到底了