
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
抛弃繁琐模板,TileLang 让混合精度计算变简单
本文详解 TileLang 如何简化大模型推理中的混合精度计算。通过声明式 DSL 自动处理 FP8/FP16 转换与内存对齐,开发者可快速构建高效算子,显著提升显存利用率与计算速度,是优化 ROCm 平台性能的理想选择。
ROCm 用户福音,TileLang 跨平台算子开发实录
本文记录 TileLang 在 ROCm 环境的跨平台算子开发实战。通过详解环境配置、依赖陷阱及 GEMM 算子适配,验证其“一次编写,多处运行”能力。文章分享编译排错经验,助力 AMD 显卡用户高效进行高性能算子开发,打破硬件生态壁垒。
到底了







