基于电信行业的AIOps应用与实践

1.摘要：在大型互联网架构中，为提升平台的计算能力及资源利用率，普遍采用分布式技术。然而使用分布式技术也会带来一些潜在问题，若主机的资源需求与资源分配不匹配、部分主机长时间负载过重，容易导致服务失效，造成服务中断或数据丢失；同时当系统发生故障时由于服务分散在不同主机上导致问题难以定位，故障排查耗时等问题。因此，有必要将AIOps技术应用于分布式系统运维中。针对电信行业某一运营服务，通过...

Emmitte

182847人浏览 · 2019-12-06 15:18:45

Emmitte · 2019-12-06 15:18:45 发布

欢迎关注“程序杂货铺”公众号，里面有精彩内容，欢迎大家收看^_^

1.摘要：

在大型互联网架构中，为提升平台的计算能力及资源利用率，普遍采用分布式技术。然而使用分布式技术也会带来一些潜在问题，若主机的资源需求与资源分配不匹配、部分主机长时间负载过重，容易导致服务失效，造成服务中断或数据丢失；同时当系统发生故障时由于服务分散在不同主机上导致问题难以定位，故障排查耗时等问题。因此，有必要将AIOps技术应用于分布式系统运维中。针对电信行业某一运营服务，通过对该服务下全部机器的监控数据及该服务的调用耗时数据进行预处理生成机器可计算的数据，使用KNN、逻辑回归等模型进行分类计算，从而预测出30分钟后该服务调用是否超时。因此，我们可以提前对此类告警加以防范或采取措施，从而提前预测故障机器，不必等服务真正出现故障后进行修复操作。

2.功能介绍：

为提升运维人员的工作效率并减轻运维人员工作负担，本系统将充分利用大数据及人工智能技术，通过构建监控数据用户画像提取出丰富的特征矩阵并与时序数据进行整合，利用机器学习分类算法对特征信息进行分类计算构建分类模型，通过已训练生成的分类模型对当前数据进行计算，以实现对分布式服务调用超时的预测功能。

3.系统架构：

图1系统架构图

4.实现原理：

4.1数据采集

开发人员通过自建监控平台对该服务进行监控，将监控到的主机时序数据及服务调用耗时数据存放至Hadoop以构建全量数据。

4.2构建用户画像

对采集到的数据构建用户画像，提取特征矩阵。在构建用户画像阶段又包括3个步骤：数据预处理、特征抽取、生成标签。其架构图如下图2所示：

图2构建用户画像架构图

数据预处理：数据预处理类似于ETL工作，主要完成数据清洗，以及对噪声数据进行过滤，例如黑名单中的数据等，如果涉及到文本信息处理还需先对文本进行分词、去停用词等操作。
特征抽取：针对字符数据，例如CPU使用率、内存使用率进行特定抽取并使用归一化方法将数据处理为[0,1]；针对文本数据主要采用TF*IDF、卡方检验、信息增益相混合的特征抽取方法，首先针对长文本，系统采用TF*IDF方法进行特征抽取，针对短文本，系统采用卡方检验方法进行特征抽取，然后系统使用信息增益对特征进行打分，根据评分设置权重。
构建标签体系：对监控数据进行标签处理，构建标签体系。通常构建三层标签体系，前两层标签为细粒度标签，往往从数据采集层获取，针对不同服务选用不同服务超时阈值进行切分,例如针对权限服务我们选择当调用耗时超过100毫秒设为异常数据否则为正常数据；而第三层为粗粒度标签，系统使用K-means算法对已抽取的特征信息进行聚类计算，生成相应的K个聚簇，令这K个聚簇的质心为粗粒度标签信息。

4.3数据存储

将提取出的特征信息、标签数据存储至Hive中，以构建数据仓库，方便后续进行统计分析及模型训练；

4.4数据建模

此模块为本系统重点模块，本系统主要选用机器学习的分类算法，其中分类算法种类繁多，针对众多算法我们通过对已处理后的监控数据进行模型实验以验证哪种模型更适合我们的场景，其验证结果如下表1所示：

表1模型验证结果表

	accurate	precision (正常)	recall (正常)	F1 (正常)	precision (异常)	recall (异常)	F1 (异常)
KNN(uniform)	0.88095	0.88	1	0.94	0.5	0.5	0.5
KNN(distance)	0.87797	0.88	1	0.94	0.25	0.33	0.28
Logistic Regression	0.88095	0.88	1	0.94	0	0	0
Naïve Bayes	0.12797	0.8	0.01	0.03	0.12	0.97	0.21
SVM	0.88095	0.88	1	0.94	0	0	0
Decision Tree	0.78273	0.88	1	0.94	0.18	0.16	0.17
Random Foreast	0.88095	0.88	1	0.94	0	0	0
AdaBoost	0.88095	0.88	1	0.94	0	0	0
GBDT	0.88095	0.88	1	0.94	0	0	0
LSTM	0.96541	0.88	1	0.94	0	0	0

实际运维工作中，运维人员更加关注针对故障信息预测得到的结果，因此实验中突出针对预测到故障信息所计算得到的评价指标进行对比，我们对异常数据的预测效果进行加粗，可以发现KNN模型更适合分布式服务调用耗时的预测场景，于是我们选择KNN对数据进行模型计算，通过表1可以得出以下信息：

KNN算法应用于分布式服务故障预测场景中的效果明显优于其它七种分类算法，基于KNN算法所得到的实验结果中，针对故障数据所计算得到的召回率、精确率及F测度值均优于其它七种算法达到的指标效果。
虽然朴素贝叶斯算法对故障数据的召回率相对较高，但其准确率太低，因此不适用于该应用场景。

综上所述，KNN算法比较适合应用于分布式服务故障预测，同时借助其优异的数据结构能够有效地进行分布式计算任务。另外由于主机每种性能指标之间存在相互联系，同时各种指标单位不一致，通常传统识别主机性能是否发生故障使用阈值方式对各指标值进行逻辑判断获取。另外，KNN算法简单，易于理解，易于实现，无需估计参数，特别适合对稀有事件进行分类，同时故障数据本身具有稀疏性的特点。因此考虑到数据及应用场景特点并结合算法自身特征，基于KNN算法的分布式服务故障预测模型具有一定的可用性及有效性。

KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。其算法流程如下：