
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
智源人工智能研究院于10 月 17 日下午,在位于北京市海淀区丰智东路13号朗丽兹西山花园酒店的GOSIM开源盛会上,成功举行了Triton&vLLM联合WorkShop。

5 月 28 日 - 5 月 29 日,FlagOS 24 小时算子赏金挑战赛・天津站正式开启,作为 2026 世界智能产业博览会同期重磅活动,大赛面向全球开发者发起 AI 算子极限优化挑战,用 Triton/Triton-TLE实力破局,赢现金大奖!5 月 28 日15:00,代码提交通道将正式开启,你将有 24 小时,在 Triton / Triton-TLE 的世界里,与四款 AI 芯片深度
全国高考临近,人类学子正在挑灯夜战, 对人类考生而言,高考意味着拥有最统一的试卷和一把相对公平的“尺子”。 但转身看向AI圈的各种“能力评测”,目前却正陷入一种缺乏权威度量衡的草莽状态。 你可能听过这个科技圈最新的“抓马”名场面: Sakana AI发布一项新技术,该技术宣称能通过 AI 自动优化 CUDA 内核,并实现了令人瞩目的性能飞跃——在特定场景下甚至斩获了“百

5月25日,面壁智能正式发布并开源了新一代端侧文本基座大模型。该模型以 1B 参数规模在 AA-Index 榜单取得 17.9 分,超越 Qwen3.5-2B(16.3 分)等全部 4B 以下开源基座模型,延续了面壁智能提出的"密度定律"——大模型智能密度约每 3.5 个月翻一番。其 Base 版本由面壁自研 AI 训练框架 ForgeTrain 预训练完成,这是全球首个完全由 AI 编写的生产级
回顾一下本文的优化路径,我们从一个朴素 Triton 实现出发,分析了 TileLang-Pipelined 的三泳道分工,把"搬运"和"计算"拆开;接着我们用 TLE-Pipe 复刻了这个数据流。可以看到,SparseMLA 算法并不复杂,难的是让 sparse gather、QK、softmax 和 PV 在 Hopper 的 warp group 之间流起来。没有合适的编排工具,开发者很容易
回顾一下本文的优化路径,我们从一个朴素 Triton 实现出发,分析了 TileLang-Pipelined 的三泳道分工,把"搬运"和"计算"拆开;接着我们用 TLE-Pipe 复刻了这个数据流。可以看到,SparseMLA 算法并不复杂,难的是让 sparse gather、QK、softmax 和 PV 在 Hopper 的 warp group 之间流起来。没有合适的编排工具,开发者很容易
腾讯混元开源了混元MT2(Hy-MT2)系列多语翻译模型,覆盖 1.8B、7B、30B-A3B 三个规模档位,支持 33 个语种互译。众智FlagOS社区第一时间完成混元MT2全系列的多芯片适配与推理部署,已支持,并同步在魔搭社区与HuggingFace提供面向开发者的模型文件与部署方案,开发者可以通过FlagOS统一系统软件栈快速部署混元MT2。Hy-MT2 包含 Hy-MT2-1.8B、Hy-
Copilot能补全代码了,ChatGPT能debug了, 是不是有一天,AI能帮我们写出和手写一样高性能的算子? “算子”是什么 如果把大模型比作一家餐厅,那算子就是后厨里最核心的几个厨师 一家餐厅好不好,招牌菜最关键。 同样的道理,大模型跑得快不快、效率高不高,底层的算子质量说了算。 然而: 一个高性能算子,需要开发者既懂算法,又懂硬件。 开发过程往往需要几周甚至几

在多元算力时代,Pointwise 算子的通用性比单纯的峰值性能更重要。FlagGems 通过 @pointwise_dynamic 动态代码生成 技术,把广播适配、非连续访存、多维度索引等复杂工程问题封装在框架层,让开发者回归算法本身。在这一设计背后, FlagGems 成为全球支持芯片数量最多、算子数量最大的 Triton 单一算子库,实现了 90% 以上算子性能持平 / 超越 CUDA 原生

在多元算力时代,Pointwise 算子的通用性比单纯的峰值性能更重要。FlagGems 通过 @pointwise_dynamic 动态代码生成 技术,把广播适配、非连续访存、多维度索引等复杂工程问题封装在框架层,让开发者回归算法本身。在这一设计背后, FlagGems 成为全球支持芯片数量最多、算子数量最大的 Triton 单一算子库,实现了 90% 以上算子性能持平 / 超越 CUDA 原生









