logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

算力被榨干、显存常年OOM?大模型是时候外接“记忆硬盘

Dear Developer: 见字如面   前几天, DeepSeek V4,刷屏了。 很多人还在讨论:性能提升了多少、上下文长度增加了多少。 但在技术圈,大家更加关注 这一版本,V4不再追求“更大”, 模型正在尝试把“记忆”从参数里拆出来。 那意味着 我们熟悉的那套扩展逻辑,可能要变了。   今天的大语言模型,本质上都在做一件事: 把知识“压缩”进参数里。 就像把整个图书馆

文章图片
##人工智能#深度学习## 编程语言 +1
10芯齐发:众智FlagOS完成DeepSeek-V4多芯适配,清微智能与曦望实现284B模型版本的适配开源

在FlagOS的统一算子库FlagGems、统一编译器FlagTree及基于FlagScale的多芯片适配支持下,海光、沐曦、华为、摩尔线程(FP8)、昆仑芯、平头哥、天数、英伟达(FP8)、清微、曦望等10款芯片,已经完成 DeepSeek-V4系列模型的跨芯适配及验证。同时,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本,标准化 Docke

#开源
不可不知小技巧|CPP Wrapper 完全指南:让你的 Triton 算子性能再提升一步

通过本文的探讨,我们深入了解了在处理计算量很小的算子时,如何通过 C++ wrapper 来降低 Wrapper+JIT runtime 的开销。通过 C++ wrapper,我们可以直接在 C++ 层面进行类型管理和内存分配,从而避免 Python 调用带来的额外开销。实验数据也证明了这种方法的有效性,性能提升显著。对于大模型推理、端侧部署、高频小算子调用等场景,C++ Wrapper 能让 T

#人工智能
大模型新拐点:FlagOS+Engram 开启算存协同新时代

本文首先介绍 Engram 的核心思想,然后阐述基于 FlagOS 系统软件栈中的训练插件完成的 Engram 架构全链路复现。在此基础上,重点展示 FlagOS 针对 Engram 进行的三大工程优化。实验量化结果表明,FlagOS 对 Engram 的优化在保持额外负载为零的前提下,使吞吐最高提升近 150%。

#驱动开发
大模型新拐点:FlagOS+Engram 开启算存协同新时代

本文首先介绍 Engram 的核心思想,然后阐述基于 FlagOS 系统软件栈中的训练插件完成的 Engram 架构全链路复现。在此基础上,重点展示 FlagOS 针对 Engram 进行的三大工程优化。实验量化结果表明,FlagOS 对 Engram 的优化在保持额外负载为零的前提下,使吞吐最高提升近 150%。

#驱动开发
10芯齐发:众智FlagOS完成DeepSeek-V4多芯适配,清微智能与曦望实现284B模型版本的适配开源

在FlagOS的统一算子库FlagGems、统一编译器FlagTree及基于FlagScale的多芯片适配支持下,海光、沐曦、华为、摩尔线程(FP8)、昆仑芯、平头哥、天数、英伟达(FP8)、清微、曦望等10款芯片,已经完成 DeepSeek-V4系列模型的跨芯适配及验证。同时,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本,标准化 Docke

#开源
10芯齐发:众智FlagOS完成DeepSeek-V4多芯适配,清微智能与曦望实现284B模型版本的适配开源

在FlagOS的统一算子库FlagGems、统一编译器FlagTree及基于FlagScale的多芯片适配支持下,海光、沐曦、华为、摩尔线程(FP8)、昆仑芯、平头哥、天数、英伟达(FP8)、清微、曦望等10款芯片,已经完成 DeepSeek-V4系列模型的跨芯适配及验证。同时,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本,标准化 Docke

#开源
众智FlagOS实现千问Qwen3.5 397B MoE模型多芯版统一发布,下载可用

依托面向多种AI芯片的统一开源系统软件栈众智FlagOS的跨芯能力,众智FlagOS社区在Qwen3.5模型发布后,即完成了397B MoE多模态模型的全量适配、精度对齐、及多芯片迁移,实现Qwen3.5在多款芯片的同步适配上线。

文章图片
#开源软件#python#人工智能 +2
Triton-TLE 新语言赋能 MoE 算子优化,对比 CUDA 性能最高提升 4.06 倍!

针对MoE推理中的性能瓶颈,众智FlagOS基于Triton语言扩展TLE设计了两套优化方案。atomic_fused方案通过单kernel全流程融合解决了大token场景下的单block串行瓶颈,相比SGLang CUDA实现最高提升4.06倍性能;tle_cluster_fused方案优化了小token场景的延迟表现。TLE扩展了Triton在共享内存控制和跨block同步的能力,支持将多阶段

文章图片
#人工智能#大数据
众智 FlagOS Day0 实现 DeepSeek-V4 八芯适配:1.6T & 284B双模型,多元算力开箱即用

2026年4月24日中午,DeepSeek 对外发布并开源了全新DeepSeek V4 系列模型。根据参数大小,模型分为DeeSeek-V4-Pro 1.6T 和 DeepSeek-V4-Flash 284B 两个版本。众智 FlagOS 社区第一时间完成 DeepSeek-V4 系列模型的多芯片适配与推理部署,已支持海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数智芯、英伟达等8种 AI

文章图片
#人工智能
    共 93 条
  • 1
  • 2
  • 3
  • 10
  • 请选择