登录社区云,与社区用户共同成长
邀请您加入社区
Kubernetes滚动更新是Kubernetes中实现应用程序不间断升级的关键技术。其核心原理是通过控制器逐步替换Pod版本:首先创建新版本Pod加入ReplicaSet,并按策略控制替换速度,监控更新状态,最终清理旧Pod。具体实现方法包括基于Deployment和Stateful的滚动更新,通过定义maxSurge和maxUnavailable等参数控制更新过程。实践操作中,只需修改yaml
metadata:numberOfReplicas: "3" # 副本数staleReplicaTimeout: "30" # 副本超时(分钟)
Longhorn 是用于 Kubernetes 的轻量级、可靠且功能强大的分布式块存储系统。Longhorn使用容器(containers)和微服务(microservices)实现分布式块存储。Longhorn 为每个块设备卷(device volume)创建一个专用的存储控制器(storage controller), 并跨存储在多个节点上的多个副本同步复制该卷。存储控制器(storage c
两款实例搭载第四代AMD EPYC 处理器,标配阿里云 eRDMA 大规模加速能力,网络延时低至 8 微秒。其中,g8a 综合性价比平均提升 15%以上,g8ae 算力最高提升 55%,在 AI 推理与训练、深度学习、高性能数据库等应用场景性能提升显著。作为企业级实例,搭载第四代 AMD EPYC(霄龙)处理器的 g8a 和 g8ae 两款实例,得益于阿里云自研的“飞天+CIPU”架构,在计算、存
本文深入解析Kubernetes调度器的核心原理与扩展机制,包括调度流程(过滤、打分、绑定)、两种扩展方案(Scheduler Extender和Scheduler Framework)的对比选择,并以异构算力调度案例HAMI展示实践应用。关键要点:理解调度器工作流程,根据业务需求合理选择扩展方案(Extender适合快速验证,Framework适合高性能场景),参考HAMI实现资源调度优化。文章
随着5G时代的临近,低延迟网络、AI硬件算力提升、和智能化应用快速发展,一个万物智联的时代必将到来。我们需要将智能决策、实时处理能力从云延展到边缘和IoT设备端。阿里云容器服务推出了边缘容器,支持云-边-端应用一体协同。在IoT和边缘计算场景,我们不但需要支持X86芯片也要提供对ARM架构芯片的支持。此外随着国产ARM CPU的快速发展,也需要我们在产品测提供ARM版本的容器产品支持。本文将介..
本文记录了我在已有 PVE 虚拟化环境中,从 Ubuntu 24.04 Server 模板克隆第一个可长期使用节点,并完成 Docker 官方标准化安装的全过程。内容聚焦真实运维实践,详细说明了虚拟机克隆策略、节点命名规范、网络配置思路以及 Docker 安装过程中关键命令的实际作用与参数含义。该节点将作为后续私有 AI 平台与容器化服务的基础计算节点,为后续扩展打下稳定、可复用的环境基础
本文记录了在Ubuntu 24.03系统上使用kubeadm部署Kubernetes 1.35集群的详细过程及踩坑经验。部署采用1个master和2个worker节点架构,使用containerd作为容器运行时。主要解决了三个关键问题:1)通过阿里云镜像源预下载k8s组件镜像;2)放弃Calico改用Flannel实现网络插件;3)配置containerd镜像加速。文章提供了完整的部署命令和配置文
Kubeflow学习教程摘要(150字): Kubeflow是基于Kubernetes的云原生MLOps平台,提供端到端机器学习解决方案。核心功能包括Jupyter Notebooks开发环境、Pipelines工作流编排、分布式训练支持和模型服务部署。教程采用三阶段学习路径:初学者搭建Kind集群体验Notebooks;中级开发自定义Pipeline组件;高级实现企业级应用。通过容器化和K8s
本文记录了我在一台已稳定运行的 PVE(Proxmox VE)环境中,制作 Ubuntu 24.04 Server 标准模板的完整实践过程。文章不重复物理服务器与 PVE 的安装步骤,而是从真实运维视角出发,聚焦虚拟机模板的设计思路、关键配置选择以及模板封印细节,力求构建一个可长期复用、可扩展的基础节点起点。该模板将作为后续 Docker、Kubernetes 以及私有 AI 平台实践的统一基础,
组件高可用方式关键配置多实例 + LB3 实例,Endpoints 自动负载均衡Leader 选举Leader 选举etcdRaft 集群3 节点,Quorum=2CoreDNSDeployment (2 副本)Kubelet独立运行 + 自动重启Containerd独立运行 + 无状态设计CiliumDaemonSet每节点运行 + Shim 隔离完全高可用- 控制平面组件均支持故障自动转移无单
本文详细介绍了Kubernetes集群的安装配置流程,主要包括:1)彻底清理并重新安装指定版本(19.03.15)Docker,配置阿里云镜像源;2)设置Docker和containerd的systemd cgroup驱动,配置镜像仓库;3)系统环境初始化(关闭防火墙、SELinux和swap);4)配置Kubernetes网络参数和阿里云yum源,安装指定版本(1.20.9)kubelet等组件
Clawdbot是一款突破性的AI Agent应用,通过Gateway、Agent、Skills和Memory四大组件架构,使AI从被动"聊伴"进化为能直接操作系统的智能执行主体。它打破AI与现实操作间的壁垒,能自主理解高层意图并拆解执行复杂任务,标志着AI产品形态向"系统级Agent平台"跃迁,为AI应用开发开辟新路径,也为投资者提供了垂直应用、模型算力和硬件芯片三大产业链布局机会。
文章详细解析了AI领域中RAG与智能体两种架构的技术原理、差异与应用场景。RAG作为知识增强器,专注于提供精准可靠的答案;智能体作为自主决策者,能执行复杂任务。文章通过"高级研究员vs智能工具库"的比喻,帮助读者理解两者的关系,并提供了基于场景的架构选择指南,包括两者融合的Agentic RAG架构,帮助开发者根据实际需求做出最合适的技术选择。
AI技术正在颠覆传统软件测试模式,2026年通过大语言模型和强化学习,AI可自动生成覆盖率达95%的端到端测试用例。核心突破包括:1)行为数据分析建模,预测用户操作路径;2)NLP解析需求文档生成测试场景;3)强化学习仿真异常情况。实践案例显示,该方法使测试周期缩短50%,人力投入减少70%。未来趋势将向预测性测试和跨平台集成发展,推动测试从成本中心转向价值引擎。从业者需及时拥抱AI技术变革,将其
需验证用户数据在系统各模块(采集、存储、处理、删除)的实时合规路径,传统人工测试难以覆盖分布式架构中的数据漂移现象。:AI系统处理的图像/语音等非结构化数据,需新型测试工具识别敏感信息(如人脸、声纹)的合规处理逻辑。:法案要求企业在45天内响应数据删除/访问请求,测试需构建压力场景验证系统极限处理能力。数据来源:2026年CCPA合规测试基准报告 [样本量:200家企业]结合PKI技术验证数据加密
摘要:云原生环境下,Kubernetes的自愈机制面临复杂场景挑战。传统规则驱动方式在故障预测和根因分析方面存在局限,而AI技术正带来革新:通过智能故障检测(如NodeProblemDetector强化)、AI决策引擎和闭环验证系统(如k8sGPT)提升自愈能力。测试实践需构建AI测试矩阵,结合ChaosMesh等工具验证MTTR等指标,并关注Spot节点回收等典型场景。未来将向多模态学习、强化学
文章介绍了RAG(检索增强生成)技术,通过外部知识库检索增强模型回答,解决大模型知识更新慢、易产生幻觉和无法处理私有数据的问题。RAG分为数据准备(文本分割、向量化、存入向量数据库)和检索生成(问题向量化、检索、增强、生成)两个阶段。文章探讨了RAG的优势与挑战,并介绍了高级RAG技术中的摘要索引优化方法。
本文详细介绍了AI Agent这一继大模型后的新技术范式,涵盖其核心组件(记忆、工具、规划)及多智能体协同架构。Meta以140亿元收购Manus公司,彰显了AI Agent在编程开发领域的巨大潜力。文章通过图解方式,帮助小白程序员理解如何构建具有自主规划、工具协同与多模态交互能力的智能体,为未来编程开发提供新思路与技术方向。
本文提供了一份完整的、基于kubeadm工具构建生产级Kubernetes高可用集群的详细指南。内容涵盖从底层容器运行时技术原理(CNI、OCI、CRI)的解析,到集群规划、系统环境准备、内核优化,再到核心组件部署(Containerd、高可用API-Server负载均衡、kubeadm初始化)以及最终的集群验证。指南特别聚焦于Kubernetes 1.24+版本已弃用Docker-shim的背景
kubelet是Master在Node节点上的Agent,管理本机运行容器的生命周期,比如创建容器、Pod挂载数据卷、下载secret、获取容器和节点状态等工作,kubelet将每个Pod转换成一组容器。Kubernetes API,集群的统一入口,各组件协调者,以RESTful API提供接口服务,所有对象资源的增删改查和监听操作都交给APIServer处理后再提交给Etcd存储。根据调度算法为
选择谷歌镜像:google_containers/nginx-ingress-controller,选择阿里云镜像最新版本修改deploy.yaml文件中的拉取镜像地址。ingress-nginx是使用nginx作为反向代理和负载均衡的k8s的ingress控制器。deploy.yaml文件是一个资源清单。
想象一下,你正负责一个热门旅游App的后端系统。每逢节假日或大促活动,用户流量如同潮水般涌来,尤其是核心的酒店推荐功能——这个依赖复杂AI模型计算的服务,瞬间面临巨大的计算压力。如果处理不当,响应缓慢甚至服务宕机将直接影响用户体验和公司收益。这不仅是一个技术问题,更是一个商业挑战。酒店推荐服务作为旅游AI系统的“大脑”,其特点是计算密集型、模型迭代快、用户流量波动极大(例如,节假日峰值流量可能是平
本文详细介绍了如何将火山引擎的AI智能体(VeADK Agent)部署到生产级Kubernetes容器服务(VKE)的完整流程,包括集群创建、安全配置、容器化、镜像推送、Kubernetes部署、弹性伸缩配置及API网关服务暴露。该方案为AI应用提供了安全可靠的环境、极致的弹性伸缩、全面的可观测性和开放的云原生生态,帮助开发者从实验阶段顺利过渡到生产成熟阶段。
详细介绍了containerd 2.x版本中镜像仓库的配置方法。主要内容包括:1)配置结构说明,采用"一仓库一目录"原则;2)分步配置实战,从版本确认、创建目录到编写hosts.toml文件;3)配置验证方法,推荐使用nerdctl工具;4)常见问题解决方案表,如配置不生效、HTTP仓库连接失败等问题。重点强调了目录名与仓库地址必须严格匹配,以及K8s环境下镜像地址需包含完整仓
1.引言nvidia-k8s-device-plugin代码由go语言编写,在此确实要赞叹一下go语言的简洁和强大,想必以后会有越来越多的人喜欢上这门语言。当然,如果想了解一个程序的代码,首先梳理一下每个文件的作用:1.main.go:作为程序入口2.nvidia.go:放置所有调用了nvml有关的函数代码3.watcher.go:定义监视器的代码4.server.go:实...
导语:在k8s的GPU节点上无法使用/usr/bin/nvidia-smi报错1NVIDIA-SMI couldn’t find libnvidia-ml.so library in your system这个我明明安装了显卡驱动 在宿主机使用nvidia-smi没问题,但是在容器内就报错NVIDIA-SMI couldn’t find libnvidia-ml.so library in you
本文系统阐述了微服务系统的架构设计与开发实践。首先介绍了微服务的基本概念、特征及与传统单体架构的区别,重点分析了微服务系统的自治性、松耦合、分布式部署等技术特点。其次详细探讨了六种典型的微服务架构模式,包括聚合器、代理、链式等模式的应用场景。在开发实践方面,深入讲解了容器化部署、服务注册发现、通信机制等关键技术,并比较了Docker、Kubernetes、gRPC等主流技术方案的优劣。最后从功能、
k8s二进制部署环境出现kubelet认证不了节点出现这个情况的时候,第一个反应是先看apiserver证书是不是过期了# 查看apiserver的service文件存储路径systemctl status kube-apiserver | grep load# 查找apiserver的启动参数,查看ca证书的存储路径cat /usr/lib/systemd/system/kube-apiserv
K8s v1.21.5 版本Unable to connect to the server: x509: certificate signed by unknown authority (possibly because of "crypto/rsa: verification error" while trying to verify candidate authority certificat
security_exception: action [indices:admin/delete] is unauthorized for user [admin] with roles [superuser] on indices [.kibana_task_manager_8.2.3_001], this action is granted by the index privileges [d
本文解决K8S访问Harbor私有仓库无权限的问题:401 Unauthorized。
文章目录gitgithubgitlab问题gitgit本地项目上传github或gitlab详解git的ssh与https免密码登录git回滚详解git常用命令详解git常用小技巧删除GitHub或者GitLab 上的文件夹githubgithub action自动部署构建入门美化一下我们的Github主页gitlabgitlab-runner部署问题fatal: Authentication f
找到[plugins.'io.containerd.cri.v1.runtime'.containerd.runtimes.runc.options]下的SystemdCgroup。找到[plugins.'io.containerd.cri.v1.images'.pinned_images]修改sandbox。注:此时/etc/containerd/config.toml该路径文件缺少必要参数,需
找到[plugins.'io.containerd.cri.v1.runtime'.containerd.runtimes.runc.options]下的SystemdCgroup。criSocket: unix:///run/containerd/containerd.sock(检查是否指向containerd.sock)找到[plugins.'io.containerd.cri.v1.imag
这时候引出了配置中心ConfigMap(如果不能满足需求可以开发自定义配置中心),首先会在每个节点上安装一个agent端,agent端的作用就是监控配置中心的资源是否发生更新动作,如果有agent端就会去配置中心下载最新的配置文件来替换当前的,然后出发nginx重载,使配置生效。但是它会使用其本地缓存的数值作为secret的当前值。所以当第一次注入的时候第一个文件产生了一个链接(有且只会有这一个链
本文系统介绍了Apache Flink的多种部署方式及关键配置要点。首先解析了Flink三大核心组件(Client、JobManager、TaskManager)的职责,区分了Session和Application两种集群模式的特点与适用场景。重点讲解了Standalone、Docker和Kubernetes三种部署方案的具体实现,包括本地快速启动、容器化部署及K8s原生集成。特别强调了生产环境中
[root@master ~]# vim web1.yaml[root@master ~]# kubectl replace --force -f web1.yaml # 如果初始化任务失败就重复执行,直到成功为止[root@master ~]# kubectl get pods -w[root@master ~]# vim web1.yaml[root@master ~]# kubectl re
注:本文虽然为大模型生成和整理,但是却具有极大的实践指导意义,请对大模型生成的文章质量多些信任,本作者通过多次根据指导实践,完成了问题查证,最终实现了预期效果。
Flink集群部署模式与优化实践 Flink集群包含Client、JobManager和TaskManager等核心角色,支持Session和Application两种部署模式。Session模式适合资源共享,而Application模式提供更好的隔离性。在Java版本选择上,Flink 2.0+推荐Java 17,但需注意模块化带来的反射问题。 部署方式包括: Standalone:快速启动但资
本文将复盘 智能体来了(西南总部) 技术团队的云原生实践:通过开发自定义控制器(Custom Controller),将 “AI 调度官” 封装为 K8s 的 Operator。我们将深入 CRD(自定义资源定义) 的设计细节,并展示如何用 Go 语言编写 Reconcile(调和) 逻辑,实现 Agent 的自动扩缩容与故障自愈。
Kubernetes Pod Pending状态排查指南 摘要:Pod长时间处于Pending状态是Kubernetes运维常见问题。本文系统性地分析了Pending状态的排查思路:首先通过kubectl describe pod查看Events和Node分配情况,判断是否调度成功。调度失败可能由资源不足(CPU/Memory)、requests设置过大、NodeSelector不匹配、Taint
正常情况下,Pod 关闭后会被从 Service 的中移除,kube-proxy更新转发规则,Service 不会再向该 Pod 转发流量。核心依赖的自动更新和kube-proxy的规则同步,这是 K8s 服务发现和负载均衡的基础。配置就绪探针可以减少特殊场景下的流量转发失败,提升服务的可用性。这个机制相当于默认实现了nginx的健康探测功能你这个类比非常精准!K8s Service 结合就绪探针
摘要:本文介绍了一种基于AI的对话式可观测性解决方案,用于解决大规模Kubernetes集群管理难题。该方案利用大语言模型作为智能中枢,通过RAG模式构建知识库(日志/指标向量化存储于OpenSearch),支持自然语言交互式故障诊断。关键实现包括:实时数据采集与处理管道(FluentBit+Kinesis+Lambda)、安全只读的Agent执行机制,以及提示词工程优化。实践表明,该方案可将故障
大模型生态系统通过分层技术(Prompt优化输入、RAG增强知识、Agent实现自主)逐步解决模型幻觉、知识局限和动态适应问题。未来发展方向包括更高效的代理协作、多模态融合及闭环优化机制,最终推动AI向AGI演进。
iperf是一款常用的网络测试工具,用于测试网络带宽、吞吐量和延迟等性能指标。它支持TCP和UDP协议,并可以在客户端和服务器之间进行双向测试。以下是iperf命令的详解:基本语法:常用选项:示例:在一台服务器上启动iperf服务端:在另一台客户端连接到服务器进行测试:将 替换为服务器的IP地址。使用UDP协议进行测试,并设置测试时间为30秒:使用指定端口进行测试:设置报告输出的间隔时间
Java的23种设计模式是软件开发中常用的设计思想总结,根据用途可分为三大类:创建型、结构型和行为型。一、创建型模式(5种) 用于处理对象创建机制,隐藏创建逻辑,使程序更灵活。
kubernetes
——kubernetes
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net