登录社区云,与社区用户共同成长
邀请您加入社区
本文介绍了开源监控系统Prometheus的基本概念、核心特性及部署实践。主要内容包括:1. Prometheus作为时序数据库监控系统的优势,包括多维度数据模型、高效存储和灵活查询语言;2. 详细部署步骤,涵盖监控端、被监控主机及MySQL服务的配置;3. 数据可视化方案,通过Grafana展示监控数据并设置仪表板;4. 告警系统配置,包括Alertmanager部署和钉钉机器人集成。文章还提供
推理缓存可显著提升推理服务效率,适用于重复请求比例高的场景(如安防监控、电商搜索)。其核心优势在于减少NPU计算量(节省30%算力)、降低延迟(缓存命中<0.1ms)和提高吞吐量,但需权衡内存占用、一致性风险和实现复杂度。主要缓存策略包括LRU(基于最近使用)和LFU(基于访问频率),其中LRU实现简单且符合时间局部性原理,适合大多数推理场景。缓存配置需考虑条目大小、TTL和命中率等因素,在输入重
IPv4 是 32-bit 的点分十进制地址体系,靠 NAT 续命;IPv6 把它扩成 128-bit 的冒号十六进制地址体系,并用 /前缀、NDP、无状态配置把网络重新拉回"每块设备都可拥有公网可达身份"的模型,代价是把 NAT 的"天然隐蔽"拿走,要求你用策略替回来。
2026年5月上旬,一条消息在运维圈炸了锅:Kubernetes被曝出一个严重的安全架构漏洞,CVSS评分8.7。如果被利用,攻击者可以从一个被入侵的Pod逃逸到宿主机,进而控制整个集群。我当时在杭州出差参加GAITC 2026,旁边的运维小哥手机一响,脸都绿了。他说:“又来了,上个月刚补过一个。这个漏洞不是我编的。Kubernetes官方在5月初发布了CVE公告,涉及kubelet的权限提升问题
Kubernetes 版本:容器运行时:网络插件:一、所有节点基础配置以下操作需要在:全部执行。node1node2node3三、配置 hosts所有节点:测试:四、关闭防火墙所有节点:五、关闭 SELinux所有节点:临时关闭:永久关闭:六、关闭 swap所有节点:永久关闭:验证:Swap 应为:七、配置内核参数所有节点:加载模块:配置 sysctl:生效:八、同步时间所有节点:安装:启动:验证
HPA 根据 CPU、内存或自定义指标自动调整 Deployment、StatefulSet 等的副本数。KEDA 是一个更强大的自动扩缩容组件,支持:RabbitMQ 队列长度Redis 列表长度Cron 定时扩缩容特性适用场景关键限制初始化、依赖检查、特权操作不支持健康检查、生命周期钩子调试 Distroless 镜像、崩溃容器不支持端口、资源限制、自动重启HPA应对流量波动、资源优化需要 M
随着大模型技术的成熟,智能 Agent 已经从单场景的“个人助理”进化为多节点协同的“群体智能系统”:电商企业用上百个 Agent 同时处理 10 万级用户咨询,科研机构用数千个 Agent 跑分子模拟和文献分析,金融机构用近万个 Agent 做实时交易风险识别。调度精度差:无法根据 Agent 的类型、算力负载、任务优先级做动态分配,资源利用率普遍低于 30%可观测性缺失:不知道上千个 Agen
ML管道编排是自动化机器学习工作流的关键,它通过自动化管理和协调ML工作流,提升开发效率和模型质量。随着ML应用的普及,管道编排变得越来越重要。在实践中,我们需要关注管道设计、开发、部署和管理等方面。通过选择合适的技术和最佳实践,可以构建高效、可靠的ML管道编排系统。
云成本报告是实现云资源消耗透明化管理的关键,它通过数据采集、处理和可视化,帮助企业了解云成本情况,优化资源配置。随着云计算的发展,成本报告变得越来越重要。在实践中,我们需要关注报告规划、数据采集、报告生成和报告管理等方面。通过选择合适的技术和最佳实践,可以构建高效、可靠的云成本报告系统。
功能需求:是否需要Docker的完整工具链性能要求:启动速度、资源占用安全需求:是否需要额外的隔离层生态兼容性:与现有工具链的集成运维复杂度:维护成本和学习曲线对于大多数生产环境,containerd是推荐的选择,它提供了良好的性能、稳定性和Kubernetes集成。对于需要增强安全性的场景,可以考虑gVisor作为补充。参考资料containerd官方文档CRI-O官方文档gVisor官方文档K
ML模型监控工具是监控和维护机器学习模型性能的关键,它通过实时监控和智能分析,帮助用户了解模型状态并及时发现问题。随着ML技术的发展,模型监控将变得更加重要。在实践中,我们需要关注工具选择、监控配置、监控执行和优化改进等方面。通过选择合适的工具和最佳实践,可以构建高效、可靠的ML模型监控体系。
统一入口管理:通过单个IP暴露多个服务HTTPS支持:SSL/TLS终止和证书管理流量控制:限流、熔断、重试高级路由:基于路径、域名、Header的路由部署策略:蓝绿部署、金丝雀发布建议根据业务需求选择合适的Ingress Controller,并遵循最佳实践配置。参考资料Kubernetes Ingress官方文档Nginx Ingress Controller文档Traefik官方文档。
本文记录了在4台Ubuntu 24.04服务器上部署Kubernetes v1.32.13集群的实验过程。采用1个Master节点和3个Worker节点的架构,使用kubeadm工具部署,网络插件为Calico v3.29.3(BGP模式)。关键步骤包括:配置主机名解析、关闭Swap、加载内核模块(overlay/br_netfilter)、安装containerd运行时、配置镜像加速器。网络规划
Kubernetes v1.36.1 二进制部署摘要 本文记录了在华为云KooLabs沙箱环境中纯二进制部署Kubernetes v1.36.1集群的完整过程。部署采用4节点架构(1 Master + 3 Worker),包含以下核心内容: 环境准备:Ubuntu 24.04 LTS系统配置,包含swap关闭、内核参数优化和containerd安装 证书体系:基于PKI构建完整的TLS证书链,包含
本文探讨了NPU显存碎片问题及池化分配器设计。显存碎片分为外部碎片(不连续空闲内存)和内部碎片(分配块大于实际需求)。NPU场景下,批量推理、动态Shape和多模型交替执行加剧了碎片问题。为解决这一问题,提出池化分配器方案:预分配大块显存并按2的幂分级管理,通过空闲链表实现快速分配,采用合并策略减少外部碎片。实现包含线程安全机制、块拆分与合并算法,在控制内部碎片率的同时提升管理效率。该设计能有效应
本文探讨了AI模型上线前系统化测试的必要性及方法。文章首先指出模型上线存在四大风险环节:模型转换、推理环境、数据预处理和性能退化,并通过真实案例说明测试缺失导致的线上事故。随后提出测试金字塔模型,从底层的单元测试(验证算子正确性)、性能测试、精度测试,到顶层的集成测试和端到端测试,形成完整的测试体系。重点介绍了算子正确性测试方法,通过对比PyTorch参考结果与转换后OM模型输出的差异来验证算子功
如果系统中已经安装了Docker,请确保在安装containerd之前卸载Docker,否则可能会引发冲突。containerd要求使用1.6.22-15或更高版本,如果下载的版本过低请运行以下命令升级成1.6.22-15版本,或自行升级。最后,还需配置containerd镜像加速器,/etc/containerd/config.toml找到。执行如下命令,配置crictl使用containerd
我平时大部分时间都在 SSH 到服务器里管理 Kubernetes 集群。kubectllogsexeceventsdescribenamespace 切换Pod 排障这些操作在 K9s 里当然也能完成,但 kop 给我的一个很明显的感觉是:它非常强调“交互体验”。键盘操作流UI 布局资源切换Terminal 交互细节日志查看体验这些地方能明显感觉到作者花了很多精力。最开始吸引我的是它的 UI。
本文从SRE视角详细解析了Kubernetes Pod从创建到运行的完整生命周期,将其拆解为五个关键阶段:准入控制、调度、容器创建准备、镜像拉取与容器启动、就绪检查。每个阶段都可能因特定问题导致Pod停滞在不同状态(如Pending、ContainerCreating、CrashLoopBackOff等)。文章提供了各阶段的典型故障场景和排查技巧,包括准入控制拒绝、调度失败、CNI插件故障、镜像拉
HAMi(异构 AI 计算虚拟化中间件)是一个用于管理 Kubernetes 集群中异构 AI 计算设备的开源平台。前身为 k8s-vGPU-scheduler,HAMi 可在多个容器和工作负载之间实现设备共享。HAMi 是云原生计算基金会(CNCF)的 Sandbox 项目,并被收录于 CNCF 技术全景图和 CNAI 技术全景图。
然后根据我们自己的需求修改配置,这里修改的有advertiseAddress、criSocket、name、imageRepository、kubernetesVersion的值,同时,添加了kube-proxy的模式为ipvs,,并且,需要注意的是,由于我们使用的containerd作为运行时,所以在初始化节点的时候需要指定cgroupDriver为systemd。此插件的安装过程,需要下载三个
也就不能把执行器部署在k8s里,而把任务调度器部署在k8s外部。详细的部署可以参考之前的devops系列文章,这里不会像之前那样赘述。
本文系统介绍了Kubernetes中Pod调度与生命周期管理的核心机制。主要内容包括:1. Pod调度策略:详细解析了节点亲和性(NodeAffinity)、Pod亲和性/反亲和性(PodAffinity/AntiAffinity)的配置与使用场景,以及拓扑分布约束(topologySpreadConstraints)的高级用法。2. 污点与容忍度:阐述了节点污点(Taints)和Pod容忍度(T
Knative为Kubernetes提供了强大的Serverless能力,支持自动扩缩容、事件驱动和流量管理。通过本文的实践指南,您可以快速搭建Knative平台,构建高效的无服务器应用。建议从简单场景开始,逐步探索高级功能。参考资料Knative官方文档Knative Serving文档Knative Eventing文档。
Kubernetes原生设计聚焦于CPU、内存等通用计算资源,但无法直接管理GPU、FPGA、高性能网络等异构硬件设备。为解决这一问题,Kubernetes引入设备插件(Device Plugin)机制,允许设备厂商通过标准化接口向集群注册设备信息,实现设备发现、健康监控与资源调度。本文聚焦NPU(神经网络处理单元)设备插件的实现方案,阐述其如何通过Kubernetes设备插件规范,将NPU资源纳
ML部署自动化是提高机器学习模型部署效率和可靠性的关键,它通过自动化工具和流程,实现模型从开发到生产的快速、可靠部署。随着ML技术的发展,部署自动化将变得更加重要。在实践中,我们需要关注部署规划、模型打包、自动化部署和监控运维等方面。通过选择合适的技术和最佳实践,可以构建高效、可靠的ML部署自动化体系。
今天最有意思的信号是AI在不同领域的渗透速度正在加快。OpenAI模型推翻80年数学猜想,说明AI不再只是「工具」,开始成为「研究伙伴」;Spotify拥抱AI翻唱,说明商业世界正在从恐惧转向务实;OpenTelemetry毕业,说明支撑AI运行的基础设施在加速成熟。三条线并行推进,指向同一个方向:AI正在从「能用」走向「好用」,从「辅助」走向「参与」。觉得有用?点个在看,让更多人看到 🎯。
昇腾 NPU 在 Kubernetes 上的落地实战指南
边缘AI框架是在边缘设备上运行AI模型的关键技术,它通过模型优化和推理加速,使得AI能够在资源受限的设备上高效运行。随着边缘计算的发展,边缘AI框架将变得更加重要。在实践中,我们需要关注框架选择、模型部署、性能优化和监控管理等方面。通过选择合适的框架和最佳实践,可以构建高效、可靠的边缘AI应用。
成本优化工具是优化云资源和运营成本的关键技术,它通过自动化分析和智能建议,帮助企业降低云成本。随着云计算的发展,成本优化工具将变得更加重要。在实践中,我们需要关注工具选择、配置实践、优化实施和持续优化等方面。通过选择合适的工具和最佳实践,可以实现有效的成本优化。
在 Kubernetes 集群中,Service 资源实现了集群内部服务的四层负载均衡,但当我们需要将服务暴露给外部用户,并基于域名、路径进行七层(HTTP/HTTPS)路由分发时,Ingress 就成了不二之选。本文将从 Ingress 的核心概念出发,结合 Traefik 这一现代化云原生 Ingress Controller,带你从零完成 HTTP 代理、域名路由、URI 多路径匹配、HTT
设置钉钉告警创建钉钉群组,添加自定义机器人,添加保存好生成的webhook之后要用在zabbix服务器上安装python并生成环境:yum install python3yum install -y python3-pippip3 install requests创建日志文件mkdir /usr/lib/zabbix/alertscripts/logtouch /usr/lib/zabbix/al
事情发生在某次微服务上线后的凌晨。监控告警突然炸锅:订单服务无法调用库存服务的 gRPC 接口,错误日志清一色是和。✅ Pod 状态正常,显示 Running✅ Service 存在,显示 ClusterIP 已分配❌ 但curl测试发现,从订单 Pod 访问时,DNS 解析成功,TCP 连接却直接超时❌ 跨节点 Pod 之间ping不通,同节点 Pod 通信正常。
SDK 游戏盾 = 端侧安全 SDK + 云端游戏盾代理/清洗集群[手游 App + 游戏盾 SDK]↕ 加密隧道 / 动态端口 / Token 校验[游戏盾清洗集群](替代高防 IP)↕ 仅转发合法客户端流量[游戏后端服务器](源站 IP 不对公网暴露)高防 IP 防"打带宽",WAF 防"Web 攻击",而 SDK 游戏盾防"伪装成玩家的协议攻击 + 源站 IP 暴露 + 脱机模拟"——这正是
本文介绍了一个生产级高可用Kubernetes集群部署方案,基于Ubuntu系统,采用3台主控节点和2台工作节点的架构。方案通过Keepalived实现虚拟IP自动漂移,确保控制面高可用性。关键优化包括完全离线部署、移除外网依赖、修复apt-key报错等问题。详细说明了节点规划、全局环境配置、Containerd运行时安装、Kubernetes组件部署以及Keepalived高可用配置步骤。该方案
本文介绍了在Kubernetes环境中实现双向TLS(mTLS)认证的两种方案。首先概述了mTLS的工作原理及其在零信任安全架构中的核心优势,包括绝对防绕过和物理身份隔离特性。然后详细说明了环境准备步骤,包括CA证书创建和Kubernetes Secret配置。针对RKE2默认Traefik Ingress,文章提供了TLSOption资源配置和Ingress关联的具体方法,特别强调了跨命名空间引
MySQL索引优化与慢查询日志指南 摘要: 本文详细介绍了MySQL性能优化的核心方法,包括慢查询日志配置与分析和索引优化技巧。主要内容涵盖:1) 慢查询日志的开启方式与参数配置;2) 慢日志分析工具mysqldumpslow和pt-query-digest的使用;3) EXPLAIN执行计划解读与索引失效场景;4) 联合索引的最左匹配原则;5) 事务ACID特性与隔离级别。重点强调了生产环境中通
ZStack AIOS和华为ModelEngine在模型管理和部署便捷度上都做得比较好,差距主要在GPU品牌覆盖——AIOS的推理引擎模板同时覆盖NVIDIA(vLLM/SGLang)和昇腾(MindIE/vLLM-Ascend)和海光(vLLM-Hygon),华为ModelEngine主要面向昇腾生态。从本文的八维对比来看,ZStack AIOS在与企业IT集成(Cloud同平台)、GPU切分(
SGLang是一个基于Python的分布式计算框架,通过多进程架构突破GIL限制。它支持三种并行计算模式:张量并行(TP)、流水线并行(PP)和数据并行(DP),以及针对特定模型的局部计算并行。文章详细介绍了TP模式的单机多卡部署方法,展示了服务启动日志和API调用示例,并简要说明了多机多卡集群的配置方式。SGLang能够有效利用多GPU资源,为大规模语言模型推理提供高效的分布式计算支持。
Kubernetes(K8s)与Docker并非替代关系,而是分工协作。Docker作为容器运行时负责构建镜像和启动容器,而K8s作为编排平台专注于调度和管理。2020年K8s弃用Docker作为默认运行时转向containerd,但Docker镜像仍可兼容使用。两者通过CRI接口实现解耦,K8s支持多种运行时选择。从操作对比可见,Docker适合单机容器管理,K8s则提供自动化扩缩容、故障恢复等
Kubernetes PDB(PodDisruptionBudget)使用避坑指南:文章总结了PDB的核心要点,指出它仅对自愿中断(如节点排空、Pod删除)有效,无法应对非自愿中断(如节点宕机)。重点对比了minAvailable和maxUnavailable两种配置方式,推荐优先使用maxUnavailable以避免副本数变化带来的问题。通过实际YAML示例演示了配置方法,并验证了PDB在节点排
kubernetes
——kubernetes
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net