logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AIOps 数据采集:日志/指标/链路数据的整合与标准化

AIOps数据采集与治理方案摘要 AIOps落地依赖日志、指标、链路三类核心数据的全量采集、统一整合和标准化治理。

文章图片
#运维
异常检测算法解析:Isolation Forest 与 LSTM 的应用场景对比

孤立森林和LSTM是AIOps异常检测中互补性极强的两类算法,核心差异源于底层逻辑的不同孤立森林是**“无监督的异常点孤立者”,轻量、高效、无标注,擅长非时序/弱时序数据的点异常检测,是海量数据的“高效初筛工具”**;LSTM是**“时序规律的拟合者”,高精度、强建模、需标注,擅长强时序数据的全类型异常检测,是核心业务场景的“高精度精检工具”**。在实际AIOps落地中,无需纠结“选哪一个”,而是

文章图片
#算法#lstm#人工智能 +1
AIOps 技术架构全景:数据采集→分析→自动化执行全流程

AIOps智能运维架构全景图解析 摘要: AIOps智能运维体系通过"数据采集-治理-分析-执行"闭环实现运维自动化。

文章图片
#架构#自动化#java
运维笔记:破解 VMware 迁移难题

摘要 本文系统性地介绍了VMware虚拟化平台迁移的全流程解决方案。首先阐述了迁移前的关键准备工作,包括场景分析、兼容性评估和工具选型。随后详细解析了三种典型迁移场景(KVM、AWS、Hyper-V)的具体操作步骤和技术要点。针对迁移过程中的常见问题(如磁盘转换失败、系统无法启动、网络配置冲突等)提供了实用解决方案。文章还强调了迁移后的验证流程和优化措施,并分享了项目管理经验与自动化脚本示例。最后

#运维
故障案例:数据库慢查询导致交易延迟,AIOps 如何自动定位?

摘要:数据库慢查询是金融、电商等交易场景中引发延迟的高频故障。传统排查依赖人工分析慢查询日志和监控指标,耗时超30分钟。AIOps通过多源数据融合、异常检测和根因推理,实现5分钟内自动定位慢查询故障并输出优化建议。以电商系统MySQL慢查询为例,基于Prometheus+SkyWalking+Elasticsearch+机器学习构建AIOps平台,完成"采集→检测→定位→自愈"

文章图片
#数据库#运维
实战:搭建边缘-云协同运维架构,降低数据传输延迟

本文提出了一种基于K3s+KubeEdge的边缘-云协同运维架构,通过将AI推理等算力下沉至边缘节点,实现数据本地化处理,显著降低传输延迟和云端带宽消耗。架构采用轻量级K3s容器编排和KubeEdge协同框架,支持边缘自治与云端统一管控。实战演示了从边缘节点部署、通信搭建到运维能力下沉的全流程,最终实现边缘数据处理延迟降低80%以上,云端带宽占用减少70%以上的目标。文章详细介绍了技术选型、架构设

文章图片
#运维#架构
实战:基于 GitOps 实现 AI 应用的自动化部署与发布

本文提出基于GitOps的AI应用自动化部署方案,针对AI推理服务面临的部署痛点,通过"Git+ArgoCD+Kubernetes"技术栈实现全流程自动化。以MNIST手写识别服务为例,详细演示了从环境搭建、容器化封装、声明式配置编写到CI/CD流水线构建的全过程。该方案通过Git作为单一事实来源,结合ArgoCD自动同步机制,实现了代码/模型变更后的自动构建部署,使部署效率提

文章图片
#人工智能#自动化#运维
故障案例:告警风暴处理,用 AI 实现告警聚合与降噪

AI自动化运维告警降噪方案摘要 Redis集群宕机等核心故障常引发数百条关联告警(如缓存超时、API延迟),传统人工筛选效率低下。本方案通过AI智能聚合实现降噪: 技术架构:基于Sentence-BERT计算告警语义相似度(阈值0.8),结合Apriori算法挖掘告警因果链,通过朴素贝叶斯推荐根因; 实施效果:告警压缩率92%,根因定位时间从30分钟缩短至2分钟,故障恢复时间减少66.7%; 关键

文章图片
#人工智能
实战:ELK 分析 AI 系统日志,快速定位接口报错问题

摘要:本文针对AI系统日志排查难题,提出基于ELK栈(Elasticsearch+Logstash+Kibana)的解决方案。通过Docker快速部署ELK环境,配置Filebeat采集日志、Logstash进行结构化处理,实现TB级AI系统日志的高效管理。重点演示如何利用Kibana可视化工具快速定位接口500错误和超时问题,通过"检索→聚合→关联"三步法,10分钟内完成根因

文章图片
#elk#人工智能
实战:Serverless 架构部署高频 AI API,动态扩缩容配置

摘要:本文以阿里云FunctionCompute(FC)为例,演示如何利用Serverless架构部署高频AIAPI。通过优化MNIST手写数字识别模型(ONNX轻量化格式),实现QPS峰值1000+、延迟≤180ms的目标。关键步骤包括:模型轻量化、函数封装、动态扩缩容配置(5-100实例秒级伸缩)以及高并发测试。Serverless架构完美适配高频AI场景,提供自动弹性扩容、按需付费和免运维等

文章图片
#serverless#架构#人工智能
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择