
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
随着大模型应用进入规模化阶段,企业对模型平台的诉求正发生结构性变化——从模型资产管理,走向模型运行与服务化能力。GPU 资源整卡独占、推理任务碎片化、异构芯片割裂、企业私有化与合规要求……这些问题共同指向一个趋势:模型平台必须具备"算力原生(Compute-Native)"能力,才能真正支撑企业级 AI 生产系统。在这一背景下,宣布达成战略合作,共同构建面向企业级 AI 工作负载的算力原生底座。图
MetaX sGPU 在 HAMi 社区的落地,是国产 GPU 能力与云原生调度技术相互成就的重要合作。沐曦以 sGPU 构建细粒度、可编排的算力接口,HAMi 提供统一而稳健的调度框架,使 GPU 从硬件资源走向可共享、可运营的云原生能力。这一模式不仅拓展了国产 GPU 的应用空间,也为 HAMi 构建跨芯片的调度标准奠定基础。
回顾过去一年,HAMi 项目如何从单一 GPU 虚拟化方案成长为支持 11+ 厂商异构 AI 加速器的统一平台。
title: “HAMi v2.8 重磅发布详解:标准化与生态完整性的双重演进”coverTitle: “HAMi v2.8 重磅发布详解:标准化与生态完整性的双重演进”excerpt: “HAMi v2.8 深度解析:新增 Kubernetes DRA 支持、Leader 选举机制、CDI 模式支持,异构 GPU 生态扩展(天数智芯、沐曦 GPU、华为昇腾),上下游生态集成(Kueue、vLLM
title: “HAMi v2.8 重磅发布详解:标准化与生态完整性的双重演进”coverTitle: “HAMi v2.8 重磅发布详解:标准化与生态完整性的双重演进”excerpt: “HAMi v2.8 深度解析:新增 Kubernetes DRA 支持、Leader 选举机制、CDI 模式支持,异构 GPU 生态扩展(天数智芯、沐曦 GPU、华为昇腾),上下游生态集成(Kueue、vLLM
星环科技在寒武纪、海光等国产加速器上的适配实践,展示了 HAMi 作为统一算力抽象与调度底座的价值,也验证了 DRA 在异构资源建模中的未来潜力。通过双方的深度协同,国产 GPU 能力得以在云原生体系内被一致管理,而 LLMOps 平台也获得了跨架构、跨型号的统一资源视图。
已合并到官方 Helm Charts,开启 vGPU 只需在 values 里打开开关(Supervisor/Worker 可分别启用)。把 Xinference 的“多模型易用 + OpenAI-兼容”与 HAMi 的“细粒度 vGPU 配额 + 统一治理”结合起来,就能在。这类场景非常适合:Embedding/Rerank/小语音/轻量 Agent 工具模型,并发量大但单模型占用小。模型推理进

随着大模型训练与推理规模不断扩大,企业对 GPU、XPU 等异构算力的调度需求变得更复杂、更多样。作为目前业内专注于异构 GPU 资源共享和调度的开源项目,HAMi 在 2.7.0 版本中完成了多项关键升级,并在 2.8.0 版本 Roadmap 中进一步规划了调度性能和 DRA 方向的演进,使 GPU 资源管理从“可用”迈向“更易用、更统一、更高性能”。在本次演讲中,HAMi 核心 mainta
开源的价值在于协作与共同演进。不同团队处于不同阶段、选择不同路径很正常;真正重要的是,行业讨论始终围绕可验证交付与工程事实推进:能力边界清晰、证据链可复现、运维闭环可依赖。密瓜智能与 HAMi 社区将持续专注于把算力虚拟化从“可切分”推进到“可治理”,并在开放协作中推动形成可互操作、可持续演进的事实标准。讨论欢迎公开进行;工程欢迎一起把复杂问题真正解决;标准也欢迎在实践与证据之上共同推进。
在大规模 AI 推理场景中,“算力不够”往往并非由硬件规模不足导致。贝壳找房(以下简称贝壳)在千卡级 GPU 集群规模下,整体 GPU 利用率约为 13%,主要问题来自小模型与多模型混跑场景下的显存碎片化以及整卡独占使用方式。在集群中存在 141G 等大显存 GPU 时,使用整卡运行 32B 以下模型,甚至仅占用 1–2G 显存的小模型服务,会导致大量显存长期处于空闲状态。







