logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI 服务可观测性:Trace 里要看见一次 Prompt 的旅程

AI 服务可观测性要让一次 Prompt 的旅程可见:检索、Prompt 构造、模型调用、输出校验、成本和质量信号都要进入 Trace。看得见链路,才托得住系统。AI 应用越复杂,越需要把那些“模型里面发生了什么”的黑箱边界往外照亮一点。

#人工智能
Go AI 后端超时树:每个下游都要有自己的时间预算

用户请求如果承诺 8 秒内返回,就要把 8 秒拆给各个阶段。认证不能等 2 秒,检索不能无限重试,持久化也不能卡住主流程。预算拆清后,服务才能在某个下游变慢时及时降级。预算不是平均分。模型调用可能需要最多时间,认证和配置读取应该很短,日志写入可以异步。每个阶段的预算要根据业务价值和依赖特性分配。Go AI 后端要把请求总超时拆成超时树,为每个下游分配独立时间预算,并用 context 逐层派生、绑

#人工智能
云原生 AI 多租户:先隔离资源,再谈平台复用

云原生 AI 多租户要从 Namespace、配额、RBAC、网络、跨系统权限和成本归因一起设计。先隔离资源和数据,再谈平台能力复用。多租户不是把多个团队塞进一个集群。它是让每个团队在清楚边界里使用共享能力,并为自己的资源行为负责。

#人工智能
云原生事故演练:没有演练的预案,只是文档

云原生事故演练要从真实故障假设开始,控制范围,设置退出条件,检查人和工具,复盘后落实改动。预案写在文档里只是第一步。跑过、修过、再跑过,它才真正能托底。

#人工智能
AI 推理网关:不要让业务服务直接追着模型跑

AI 推理网关的价值不是多一层服务,而是把模型调用治理收口。鉴权、路由、超时、重试、成本、日志和灰度都应在统一入口处理。业务服务只关心任务,推理网关负责托底。这样模型再怎么变,应用架构也不会被拖着到处跑。

#人工智能
K8s 自定义资源:用声明式 API 简化平台工程

import (// InferenceServiceSpec 定义推理服务的期望状态// 模型制品地址,支持 S3/GCS/本地路径// 推理框架:triton/seldon/torchserve// 服务端口// 最小副本数,0 表示支持缩容到零// 最大副本数// GPU 每副本需求// 资源请求与限制// 流量权重配置,用于灰度发布// ResourceRequirements 容器资源规

文章图片
#人工智能
GPU 资源调度:从空转到高效

在云原生 AI 平台里,GPU 利用率低是个老生常谈的问题。监控数据很直观:大多数集群的 GPU 利用率常年卡在 30%-50%。这意味着一半以上的算力成本,都花在了“等”上——等数据加载、等环境配置、等前一个任务释放显存。根本原因很简单:Kubernetes 自带的调度器()本来就不是为了 AI 负载设计的。它只做静态资源分配,根本不知道 GPU 显存碎没碎,也不知道任务实际用多少。结果就是,一

文章图片
#人工智能
高性能网关:Go 原生单机缓存与自适应回源限流实践

高并发网关不一定非要堆分布式中间件。用 Go 的读写锁和协程,在进程内就能做出高性能的本地缓存。配合自适应令牌桶限流,缓存失效时能给后端提供保护。这套方案在云原生架构里比较实用。原文问题修改方式"生死存亡""洪水一样冲垮""安然无恙"删除戏剧化比喻,改为直接描述"业界公认最直接有效"改为"常用做法""两道核心防线""敏锐地捕捉到"删除拟人化和过度修饰"既保护了后端,又最大化地利用了"简化为"既保护

#人工智能
容器集群优化:Kubernetes基于GPU拓扑感知的智能调度器实现

面向GPU拓扑感知的调度不仅能够消除多卡训练时的通信瓶颈,与多租户共享机制的结合更进一步压榨了硬件的空闲价值。未来随着大模型训练与推理任务的持续增长,这种精细化的异构资源调度和管理方案将会向着自动化、动态弹性调整的方向持续演进。

#人工智能
Kubernetes 扩展机制深度解析:从 Operator 模式到准入控制的工程实践

Kubernetes 调度器的 API 每个大版本都有变动。1.27 引入了 SchedulingHint,1.29 修改了 Permit 插件的语义。自研调度器插件必须紧跟上游版本,否则升级 K8s 时调度器可能编译失败或行为异常。如果调度需求只是"特定 Pod 调度到特定节点",优先用 nodeAffinity + taint/toleration,这是原生能力,零运维成本。只有当原生机制无法

文章图片
#人工智能
    共 32 条
  • 1
  • 2
  • 3
  • 4
  • 请选择