logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Triton 入门指南 | isin算子性能优化

Triton 面向的是数据块编程,屏蔽了大多数硬件细节,降低了开发门槛。开发人员可以专注于数据块划分和算法设计。通过合理的算法设计,Triton 实现的算子完全有可能在性能上超越 pytorch 中的 cuda 实现。

文章图片
#人工智能
Triton入门指南|Triton DSL的特点与类型

Triton官方将其DSL语法表达体系称为 triton.language(https://triton-lang.org/main/python-api/triton.language.html),是一种依托于python环境的DSL,从该命名中的“language”中不难窥见,Triton团队想用自成一派的语言(language)对面向GPU的编程模型进行独特的表达,在Triton中,DSL由

文章图片
#人工智能
Triton 中国生态 Meetup 第二期

9月7日周六下午,智源研究院将举办Triton 中国生态Meetup第二期,届时来自智源、硅基流动、天数智芯的技术专家将为大家带来 Triton前沿技术及案例分享,从研发进展到实战技巧,带你全面解锁Triton潜力!

文章图片
Triton&vLLM WorkShop

智源人工智能研究院于 10 月 17 日下午,在位于北京市海淀区丰智东路13号朗丽兹西山花园酒店的GOSIM开源盛会上,成功举行了Triton&vLLM联合WorkShop。这场盛会不仅吸引了上百位 Triton 技术爱好者的积极参与,更通过线上直播吸引了近万名观众的热情参与,共同见证了 Triton 技术的精彩分享和深入探讨。

文章图片
Triton中国社区正式启动开发者贡献计划

Triton中国社区贡献者招募计划启动!点击了解详情进行报名

文章图片
活动回顾|Triton&vLLM WorkShop

智源人工智能研究院于10 月 17 日下午,在位于北京市海淀区丰智东路13号朗丽兹西山花园酒店的GOSIM开源盛会上,成功举行了Triton&vLLM联合WorkShop。

文章图片
活动报名 | Triton &vLLM联合WorkShop重磅来袭

Triton &vLLM联合WorkShop重磅来袭,点击文章立即报名!

文章图片
#人工智能
解锁FlagGems:Triton算子库的快速入门与贡献指南

FlagGems 使用 pre-commit(https://pre-commit.com) 的 git hooks 格式化源代码,在调用 git commit 命令时进行代码静态检查,并且 pre-commit 测试也是 CI 的一部分,不通过检查的 Pull Request 不能被提交到 FlagGems​​​​​​​。打开 FlagGems GitHub 首页(https://github.

文章图片
#人工智能
PyTorch Conference 2024大会概况及FlagGems/FlagAttention算子库亮相

因此,本届 PyTorch 大会所宣讲的绝大多数内容都或多或少涉及大模型的训练、微调、对齐、推理、量化、部署、评测、数据、结构细节、底层编译优化等关键话题,以及整个 PyTorch 生态社群在过去一年中与之相关的努力。本届的例行报告本身包含五个部分,其中最后三个分别对应 PyTorch 官方今年新推出的三个原生大模型库:用于大规模预训练的 TorchTitan、用于大模型微调的 TorchTune

文章图片
#pytorch#人工智能
开启大模型时代新纪元:Triton的演变与影响力

而相比更底层的CUDA C甚至PTX、SASS等,Triton则隐藏了一些线程块粒度以下的调度功能,改由编译器自动接管共享存储、线程并行、合并访存、张量布局等细节,降低了并行编程模型的难度,同时提高了用户的生产效率。同时,厂商能够及时跟进Triton的更新,保持在硬件适配的前沿序列,也可以提出多芯片适用的共性技术创新,并贡献到Triton的开放社区中,继而成为Triton生态发展的引领者。与CUD

文章图片
#人工智能
    共 12 条
  • 1
  • 2
  • 请选择