
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Dear Developer: 见字如面 前几天, DeepSeek V4,刷屏了。 很多人还在讨论:性能提升了多少、上下文长度增加了多少。 但在技术圈,大家更加关注 这一版本,V4不再追求“更大”, 模型正在尝试把“记忆”从参数里拆出来。 那意味着 我们熟悉的那套扩展逻辑,可能要变了。 今天的大语言模型,本质上都在做一件事: 把知识“压缩”进参数里。 就像把整个图书馆

在FlagOS的统一算子库FlagGems、统一编译器FlagTree及基于FlagScale的多芯片适配支持下,海光、沐曦、华为、摩尔线程(FP8)、昆仑芯、平头哥、天数、英伟达(FP8)、清微、曦望等10款芯片,已经完成 DeepSeek-V4系列模型的跨芯适配及验证。同时,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本,标准化 Docke
通过本文的探讨,我们深入了解了在处理计算量很小的算子时,如何通过 C++ wrapper 来降低 Wrapper+JIT runtime 的开销。通过 C++ wrapper,我们可以直接在 C++ 层面进行类型管理和内存分配,从而避免 Python 调用带来的额外开销。实验数据也证明了这种方法的有效性,性能提升显著。对于大模型推理、端侧部署、高频小算子调用等场景,C++ Wrapper 能让 T
本文首先介绍 Engram 的核心思想,然后阐述基于 FlagOS 系统软件栈中的训练插件完成的 Engram 架构全链路复现。在此基础上,重点展示 FlagOS 针对 Engram 进行的三大工程优化。实验量化结果表明,FlagOS 对 Engram 的优化在保持额外负载为零的前提下,使吞吐最高提升近 150%。
本文首先介绍 Engram 的核心思想,然后阐述基于 FlagOS 系统软件栈中的训练插件完成的 Engram 架构全链路复现。在此基础上,重点展示 FlagOS 针对 Engram 进行的三大工程优化。实验量化结果表明,FlagOS 对 Engram 的优化在保持额外负载为零的前提下,使吞吐最高提升近 150%。
在FlagOS的统一算子库FlagGems、统一编译器FlagTree及基于FlagScale的多芯片适配支持下,海光、沐曦、华为、摩尔线程(FP8)、昆仑芯、平头哥、天数、英伟达(FP8)、清微、曦望等10款芯片,已经完成 DeepSeek-V4系列模型的跨芯适配及验证。同时,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本,标准化 Docke
在FlagOS的统一算子库FlagGems、统一编译器FlagTree及基于FlagScale的多芯片适配支持下,海光、沐曦、华为、摩尔线程(FP8)、昆仑芯、平头哥、天数、英伟达(FP8)、清微、曦望等10款芯片,已经完成 DeepSeek-V4系列模型的跨芯适配及验证。同时,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本,标准化 Docke
依托面向多种AI芯片的统一开源系统软件栈众智FlagOS的跨芯能力,众智FlagOS社区在Qwen3.5模型发布后,即完成了397B MoE多模态模型的全量适配、精度对齐、及多芯片迁移,实现Qwen3.5在多款芯片的同步适配上线。

针对MoE推理中的性能瓶颈,众智FlagOS基于Triton语言扩展TLE设计了两套优化方案。atomic_fused方案通过单kernel全流程融合解决了大token场景下的单block串行瓶颈,相比SGLang CUDA实现最高提升4.06倍性能;tle_cluster_fused方案优化了小token场景的延迟表现。TLE扩展了Triton在共享内存控制和跨block同步的能力,支持将多阶段

2026年4月24日中午,DeepSeek 对外发布并开源了全新DeepSeek V4 系列模型。根据参数大小,模型分为DeeSeek-V4-Pro 1.6T 和 DeepSeek-V4-Flash 284B 两个版本。众智 FlagOS 社区第一时间完成 DeepSeek-V4 系列模型的多芯片适配与推理部署,已支持海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数智芯、英伟达等8种 AI









