简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Triton 面向的是数据块编程,屏蔽了大多数硬件细节,降低了开发门槛。开发人员可以专注于数据块划分和算法设计。通过合理的算法设计,Triton 实现的算子完全有可能在性能上超越 pytorch 中的 cuda 实现。
Triton官方将其DSL语法表达体系称为 triton.language(https://triton-lang.org/main/python-api/triton.language.html),是一种依托于python环境的DSL,从该命名中的“language”中不难窥见,Triton团队想用自成一派的语言(language)对面向GPU的编程模型进行独特的表达,在Triton中,DSL由
9月7日周六下午,智源研究院将举办Triton 中国生态Meetup第二期,届时来自智源、硅基流动、天数智芯的技术专家将为大家带来 Triton前沿技术及案例分享,从研发进展到实战技巧,带你全面解锁Triton潜力!
智源人工智能研究院于 10 月 17 日下午,在位于北京市海淀区丰智东路13号朗丽兹西山花园酒店的GOSIM开源盛会上,成功举行了Triton&vLLM联合WorkShop。这场盛会不仅吸引了上百位 Triton 技术爱好者的积极参与,更通过线上直播吸引了近万名观众的热情参与,共同见证了 Triton 技术的精彩分享和深入探讨。
Triton中国社区贡献者招募计划启动!点击了解详情进行报名
智源人工智能研究院于10 月 17 日下午,在位于北京市海淀区丰智东路13号朗丽兹西山花园酒店的GOSIM开源盛会上,成功举行了Triton&vLLM联合WorkShop。
Triton &vLLM联合WorkShop重磅来袭,点击文章立即报名!
FlagGems 使用 pre-commit(https://pre-commit.com) 的 git hooks 格式化源代码,在调用 git commit 命令时进行代码静态检查,并且 pre-commit 测试也是 CI 的一部分,不通过检查的 Pull Request 不能被提交到 FlagGems。打开 FlagGems GitHub 首页(https://github.
因此,本届 PyTorch 大会所宣讲的绝大多数内容都或多或少涉及大模型的训练、微调、对齐、推理、量化、部署、评测、数据、结构细节、底层编译优化等关键话题,以及整个 PyTorch 生态社群在过去一年中与之相关的努力。本届的例行报告本身包含五个部分,其中最后三个分别对应 PyTorch 官方今年新推出的三个原生大模型库:用于大规模预训练的 TorchTitan、用于大模型微调的 TorchTune
而相比更底层的CUDA C甚至PTX、SASS等,Triton则隐藏了一些线程块粒度以下的调度功能,改由编译器自动接管共享存储、线程并行、合并访存、张量布局等细节,降低了并行编程模型的难度,同时提高了用户的生产效率。同时,厂商能够及时跟进Triton的更新,保持在硬件适配的前沿序列,也可以提出多芯片适用的共性技术创新,并贡献到Triton的开放社区中,继而成为Triton生态发展的引领者。与CUD