logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

开启大模型时代新纪元:Triton的演变与影响力

而相比更底层的CUDA C甚至PTX、SASS等,Triton则隐藏了一些线程块粒度以下的调度功能,改由编译器自动接管共享存储、线程并行、合并访存、张量布局等细节,降低了并行编程模型的难度,同时提高了用户的生产效率。同时,厂商能够及时跟进Triton的更新,保持在硬件适配的前沿序列,也可以提出多芯片适用的共性技术创新,并贡献到Triton的开放社区中,继而成为Triton生态发展的引领者。与CUD

文章图片
#人工智能
活动回顾|Triton 中国生态 Meetup 第二期

通过实例代码,展示了如何优化 MoE 架构,提升计算效率,并探讨了 L2 缓存优化和量化技术在 MoE 中的应用,为 AI 模型的优化提供了宝贵的实践经验。李之昕老师详细介绍了 FlagGems 的最新研发进展,包括新增的算子和功能特性,性能和功能的改进,硬件适配的最新进展,以及未来的研发计划。活动的成功举办,展示了Triton的广泛应用和强大潜力,也为未来更多的Triton爱好者提供了宝贵的经验

文章图片
#人工智能
Triton大会@硅谷:芯片、AI大厂齐站台

此次大会,包括 Nvidia、AMD、Intel、Qualcomm 在内的各大芯片厂商,以及Google、微软、OpenAI、AWS 和 Meta 等 AI 领域的领军企业,均将 Triton 视为构建开放 AI 软件栈的关键技术,尤其是 Meta 都把 Triton 作为打造开放 AI 软件栈的必需品。Triton 的社区生态建设呈现出一种独特的活力,核心团队虽不张扬,但众多芯片厂商和用户厂商表

文章图片
#人工智能
到底了