微微一笑很倾城83 个人主页

@2402_83455235

微微一笑很倾城83

2024-12-06 13:33:44 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

为 GPU 成本优化而生：Hearth 开源，一个云原生、支持异构计算的 LLM 推理引擎，邀你共建

文章摘要： Hearth是一个开源的Kubernetes Operator项目，专为解决大模型推理服务中的两个痛点问题：GPU资源闲置浪费和厂商锁定。它通过声明式manifest支持LLM服务从零扩展，结合KEDA实现按需扩缩容，利用网关层缓冲请求并触发冷启动。项目采用"厂商中立"设计，将不同加速卡差异抽象为可配置数据而非硬编码逻辑，目前已支持NVIDIA和昇腾芯片。开发者可通

#kubernetes #容器 #云原生

为 GPU 成本优化而生：Hearth 开源，一个云原生、支持异构计算的 LLM 推理引擎，邀你共建

#kubernetes #容器 #云原生

为 GPU 成本优化而生：Hearth 开源，一个云原生、支持异构计算的 LLM 推理引擎，邀你共建

#kubernetes #容器 #云原生

为 GPU 成本优化而生：Hearth 开源，一个云原生、支持异构计算的 LLM 推理引擎，邀你共建

#kubernetes #容器 #云原生

闲置的 GPU 也在烧钱 —— 一个能让大模型「缩容到零」的 Kubernetes Operator

（因为“边构建边公开”必须有真凭实据）：我在真实的 NVIDIA A100 上验证了整个闭环 —— 声明式部署 → KEDA 缩容到零 → 带 keepalive 的冷启动唤醒 → 真实 token 流式传输 → 缩容时的优雅排空 → 跨两个 GPU 节点的 1→N 自动伸缩 → Prometheus/Grafana 可观测性。目前没有认证、没有多租户 —— 它非常适合内部/开发环境、对成本敏感且

#kubernetes #容器 #云原生 +1

到底了