简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
直至今天,Triton已然走出了NVIDIA GPU的舒适区,连接起了更多不同的后端,除了设计相似的GPGPU,也有架构迥异的DSA芯片在拓展对Triton的支持,甚至在CPU、RISC-V领域也开启了迁移的探索。不可否认,CUDA生态历经多年的大浪淘沙仍旧在高性能计算领域处于强大的优势地位,无论是领先的硬件架构和芯片算力、成熟完整的开发工具链、还是独占鳌头的市场占有率,都让它成为AI大模型行业的
FlagGems 是由北京智源人工智能研究院于 2024 年 6 月推出的面向多种 AI 芯片的开源大模型通用算子库。2024 年第四季度,FlagGems 仍处于高速迭代升级过程中。
在Triton中国社区的每一个角落,都有着这样一群人,他们以代码为笔,以创新为墨,绘制着社区发展的宏伟蓝图。为了向这些默默无闻却又至关重要的贡献者们致以最深切的敬意,我们近期组织了一场别开生面的贡献者证书/奖项颁发仪式。
12月25日,智源研究院与安谋科技(中国)有限公司(以下简称“安谋科技”)正式签署战略合作协议,双方将面向多元AI芯片领域开展算子库优化与适配、编译器与工具链支持、生态系统建设与推广等一系列深入合作,共同打造基于Arm架构的开源技术生态体系,赋能国内大模型与人工智能产业的高速发展。
2024年12月25日,智源研究院与浪潮电子信息产业股份有限公司、北京开源芯片研究院分别达成战略合作协议,共同打造基于Triton算子库的面向多元AI芯片的开源技术生态体系,赋能大模型与人工智能产业发展。
智源研究院和浪潮信息将于12月25日(星期三)下午组织召开AI系统创新研讨会,共同探讨在大模型高速发展时期,如何构建多元AI算力芯片架构,共建全栈软件生态,助力AI技术和产业的发展和进步。
Triton 的 Python API 里除了 triton.jit 还有 triton.autotune,triton heuristics,triton.Config 等接口用于调优以生成性能更好的 kernel
Triton 以其低门槛开发和抽象的硬件细节处理,成为开发者的优选。对于渴望参与 Triton 开源社区建设的开发者来说,优化 Triton 算子是一条理想的路径。优化后的 Triton 算子性能有望匹敌甚至超越 PyTorch 的原生实现。正如古人云:“工欲善其事,必先利其器”,本文将介绍 Triton 算子优化的利器——自动调优(autotune)。
11月30日周六下午,Triton中国社区的成员们齐聚一堂,参与了一场特别的茶话会。这场活动不仅是对开源社区贡献者辛勤工作的感谢,也是对未来发展方向的深入探讨.。
Triton 面向的是数据块编程,屏蔽了大多数硬件细节,降低了开发门槛。开发人员可以专注于数据块划分和算法设计。通过合理的算法设计,Triton 实现的算子完全有可能在性能上超越 pytorch 中的 cuda 实现。