logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

为 GPU 成本优化而生:Hearth 开源,一个云原生、支持异构计算的 LLM 推理引擎,邀你共建

文章摘要: Hearth是一个开源的Kubernetes Operator项目,专为解决大模型推理服务中的两个痛点问题:GPU资源闲置浪费和厂商锁定。它通过声明式manifest支持LLM服务从零扩展,结合KEDA实现按需扩缩容,利用网关层缓冲请求并触发冷启动。项目采用"厂商中立"设计,将不同加速卡差异抽象为可配置数据而非硬编码逻辑,目前已支持NVIDIA和昇腾芯片。开发者可通

文章图片
#kubernetes#容器#云原生
为 GPU 成本优化而生:Hearth 开源,一个云原生、支持异构计算的 LLM 推理引擎,邀你共建

文章摘要: Hearth是一个开源的Kubernetes Operator项目,专为解决大模型推理服务中的两个痛点问题:GPU资源闲置浪费和厂商锁定。它通过声明式manifest支持LLM服务从零扩展,结合KEDA实现按需扩缩容,利用网关层缓冲请求并触发冷启动。项目采用"厂商中立"设计,将不同加速卡差异抽象为可配置数据而非硬编码逻辑,目前已支持NVIDIA和昇腾芯片。开发者可通

文章图片
#kubernetes#容器#云原生
为 GPU 成本优化而生:Hearth 开源,一个云原生、支持异构计算的 LLM 推理引擎,邀你共建

文章摘要: Hearth是一个开源的Kubernetes Operator项目,专为解决大模型推理服务中的两个痛点问题:GPU资源闲置浪费和厂商锁定。它通过声明式manifest支持LLM服务从零扩展,结合KEDA实现按需扩缩容,利用网关层缓冲请求并触发冷启动。项目采用"厂商中立"设计,将不同加速卡差异抽象为可配置数据而非硬编码逻辑,目前已支持NVIDIA和昇腾芯片。开发者可通

文章图片
#kubernetes#容器#云原生
为 GPU 成本优化而生:Hearth 开源,一个云原生、支持异构计算的 LLM 推理引擎,邀你共建

文章摘要: Hearth是一个开源的Kubernetes Operator项目,专为解决大模型推理服务中的两个痛点问题:GPU资源闲置浪费和厂商锁定。它通过声明式manifest支持LLM服务从零扩展,结合KEDA实现按需扩缩容,利用网关层缓冲请求并触发冷启动。项目采用"厂商中立"设计,将不同加速卡差异抽象为可配置数据而非硬编码逻辑,目前已支持NVIDIA和昇腾芯片。开发者可通

文章图片
#kubernetes#容器#云原生
闲置的 GPU 也在烧钱 —— 一个能让大模型「缩容到零」的 Kubernetes Operator

(因为“边构建边公开”必须有真凭实据):我在真实的 NVIDIA A100 上验证了整个闭环 —— 声明式部署 → KEDA 缩容到零 → 带 keepalive 的冷启动唤醒 → 真实 token 流式传输 → 缩容时的优雅排空 → 跨两个 GPU 节点的 1→N 自动伸缩 → Prometheus/Grafana 可观测性。目前没有认证、没有多租户 —— 它非常适合内部/开发环境、对成本敏感且

文章图片
#kubernetes#容器#云原生 +1
到底了