logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

活动回顾|Triton&vLLM WorkShop

智源人工智能研究院于10 月 17 日下午,在位于北京市海淀区丰智东路13号朗丽兹西山花园酒店的GOSIM开源盛会上,成功举行了Triton&vLLM联合WorkShop。

文章图片
24 小时极限竞速|FlagOS 算子赏金挑战赛来袭,天津智博会同期开战!

5 月 28 日 - 5 月 29 日,FlagOS 24 小时算子赏金挑战赛・天津站正式开启,作为 2026 世界智能产业博览会同期重磅活动,大赛面向全球开发者发起 AI 算子极限优化挑战,用 Triton/Triton-TLE实力破局,赢现金大奖!5 月 28 日15:00,代码提交通道将正式开启,你将有 24 小时,在 Triton / Triton-TLE 的世界里,与四款 AI 芯片深度

#人工智能#开源
FlagOS 与CANN-Bench共筑 AI 算子新基建

全国高考临近,人类学子正在挑灯夜战, 对人类考生而言,高考意味着拥有最统一的试卷和一把相对公平的“尺子”。 但转身看向AI圈的各种“能力评测”,目前却正陷入一种缺乏权威度量衡的草莽状态。   你可能听过这个科技圈最新的“抓马”名场面:   Sakana AI发布一项新技术,该技术宣称能通过 AI 自动优化 CUDA 内核,并实现了令人瞩目的性能飞跃——在特定场景下甚至斩获了“百

文章图片
#CANN开源#人工智能#昇腾AI大模型 +1
FlagOS助力 MiniCPM5 在9款芯片(含ARM)适配,Day0实现从云到端生态覆盖,效率追平NVIDIA原生

5月25日,面壁智能正式发布并开源了新一代端侧文本基座大模型。该模型以 1B 参数规模在 AA-Index 榜单取得 17.9 分,超越 Qwen3.5-2B(16.3 分)等全部 4B 以下开源基座模型,延续了面壁智能提出的"密度定律"——大模型智能密度约每 3.5 个月翻一番。其 Base 版本由面壁自研 AI 训练框架 ForgeTrain 预训练完成,这是全球首个完全由 AI 编写的生产级

#python#人工智能#开源
不可不知小技巧|Triton-TLE实践,告别手动Barrier,用生产消费模型释放Hopper架构算力极限

回顾一下本文的优化路径,我们从一个朴素 Triton 实现出发,分析了 TileLang-Pipelined 的三泳道分工,把"搬运"和"计算"拆开;接着我们用 TLE-Pipe 复刻了这个数据流。可以看到,SparseMLA 算法并不复杂,难的是让 sparse gather、QK、softmax 和 PV 在 Hopper 的 warp group 之间流起来。没有合适的编排工具,开发者很容易

#架构#spring#java
不可不知小技巧|Triton-TLE实践,告别手动Barrier,用生产消费模型释放Hopper架构算力极限

回顾一下本文的优化路径,我们从一个朴素 Triton 实现出发,分析了 TileLang-Pipelined 的三泳道分工,把"搬运"和"计算"拆开;接着我们用 TLE-Pipe 复刻了这个数据流。可以看到,SparseMLA 算法并不复杂,难的是让 sparse gather、QK、softmax 和 PV 在 Hopper 的 warp group 之间流起来。没有合适的编排工具,开发者很容易

#架构#spring#java
众智FlagOS完成腾讯混元MT2多语翻译模型全系列多芯片适配:英伟达/华为/平头哥三芯开箱即用

腾讯混元开源了混元MT2(Hy-MT2)系列多语翻译模型,覆盖 1.8B、7B、30B-A3B 三个规模档位,支持 33 个语种互译。众智FlagOS社区第一时间完成混元MT2全系列的多芯片适配与推理部署,已支持,并同步在魔搭社区与HuggingFace提供面向开发者的模型文件与部署方案,开发者可以通过FlagOS统一系统软件栈快速部署混元MT2。Hy-MT2 包含 Hy-MT2-1.8B、Hy-

#人工智能#开发语言#开源
验证210个真实算子后发现,AI写Kernel还有这些硬伤

Copilot能补全代码了,ChatGPT能debug了, 是不是有一天,AI能帮我们写出和手写一样高性能的算子?   “算子”是什么 如果把大模型比作一家餐厅,那算子就是后厨里最核心的几个厨师 一家餐厅好不好,招牌菜最关键。 同样的道理,大模型跑得快不快、效率高不高,底层的算子质量说了算。   然而: 一个高性能算子,需要开发者既懂算法,又懂硬件。 开发过程往往需要几周甚至几

文章图片
不可不知小技巧|FlagGems 算子库 @pointwise_dynamic 巧解 Pointwise 算子通用性问题

在多元算力时代,Pointwise 算子的通用性比单纯的峰值性能更重要。FlagGems 通过 @pointwise_dynamic 动态代码生成 技术,把广播适配、非连续访存、多维度索引等复杂工程问题封装在框架层,让开发者回归算法本身。在这一设计背后, FlagGems 成为全球支持芯片数量最多、算子数量最大的 Triton 单一算子库,实现了 90% 以上算子性能持平 / 超越 CUDA 原生

文章图片
#python#开发语言
不可不知小技巧|FlagGems 算子库 @pointwise_dynamic 巧解 Pointwise 算子通用性问题

在多元算力时代,Pointwise 算子的通用性比单纯的峰值性能更重要。FlagGems 通过 @pointwise_dynamic 动态代码生成 技术,把广播适配、非连续访存、多维度索引等复杂工程问题封装在框架层,让开发者回归算法本身。在这一设计背后, FlagGems 成为全球支持芯片数量最多、算子数量最大的 Triton 单一算子库,实现了 90% 以上算子性能持平 / 超越 CUDA 原生

文章图片
#python#开发语言
    共 103 条
  • 1
  • 2
  • 3
  • 11
  • 请选择