
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
FlagOS 在支持寒武纪算力过程中,在算子、编译器、分布式通信库和并行框架这四大关键组件上取得了重大技术进展与适配成果。

Triton 以其低门槛开发和抽象的硬件细节处理,成为开发者的优选。对于渴望参与 Triton 开源社区建设的开发者来说,优化 Triton 算子是一条理想的路径。优化后的 Triton 算子性能有望匹敌甚至超越 PyTorch 的原生实现。正如古人云:“工欲善其事,必先利其器”,本文将介绍 Triton 算子优化的利器——自动调优(autotune)。

Triton 面向的是数据块编程,屏蔽了大多数硬件细节,降低了开发门槛。开发人员可以专注于数据块划分和算法设计。通过合理的算法设计,Triton 实现的算子完全有可能在性能上超越 pytorch 中的 cuda 实现。

具身智能是连接虚拟与现实、通往通用人工智能(AGI)的关键路径。近日,北京智源人工智能研究院。
这是国内首个专注于 Triton 技术及其生态的开发者盛会,一场连接未来、代码与创新的相遇。现在,答案来了:Triton,正在重塑 AI 编程的新范式!AI 计算的下一程,需要每一个热爱技术的你。无论你是深耕多年的系统高手,还是对底层充满好奇的初学者,这里都有属于你的席位与声音。这不仅是一场技术分享,更是一次生态的汇聚、一次思维的碰撞、一次未来的共建。✅代表“下一代”编程范式:与编译器、硬件协同进

FlagCX统一通信库发布v0.7.0版本,新增uniRunner全场景统一模式,实现同构/异构芯片的互联互通。该版本基于Kernel-free Non-reduce技术,通过Device-buffer IPC/RDMA能力实现芯片解耦,无需依赖厂商原生通信库。性能测试显示,异构场景下通信带宽提升最高达4.57倍,同时支持10款主流AI芯片。新版本还提供了多芯片编译指南和PyTorch DDP测试

FlagCX统一通信库发布v0.7.0版本,新增uniRunner全场景统一模式,实现同构/异构芯片的互联互通。该版本基于Kernel-free Non-reduce技术,通过Device-buffer IPC/RDMA能力实现芯片解耦,无需依赖厂商原生通信库。性能测试显示,异构场景下通信带宽提升最高达4.57倍,同时支持10款主流AI芯片。新版本还提供了多芯片编译指南和PyTorch DDP测试

2026年1月9日,由 FlagOS 开源社区和北京智源人工智能研究院联合主办的 “Triton Next 技术大会(TritonNext)”将在北京举行。

FlagEval发布两大AI模型评测榜单:1)安全与价值观榜单对18款主流模型进行3000题测试,ClaudeSonnet4以86.76%合格率居首,头部模型主观题表现优异(97%+),但客观题存在20-25%差距;2)11月角斗场排行榜引入多模型对战机制和深度推理指标,o4-mini、GPT4.1-mini等位列第一梯队。榜单旨在建立科学评估标准,推动AI安全与能力发展。

FlagOS 在支持寒武纪算力过程中,在算子、编译器、分布式通信库和并行框架这四大关键组件上取得了重大技术进展与适配成果。









