原理

使用四分位方法进行异常值检测可以通过计算数据的四分位数(Q1、Q3)和四分位距(IQR),然后根据一定的规则判断哪些数据点被认为是异常值。一种常见的规则是根据箱线图,将小于Q1-1.5IQR或大于Q3+1.5IQR的数据点视为异常值。

步骤

首先将一组数据由小到大排列,

最小的那个数值记为下界,也叫下边缘;
位于1/4位置的数为下四分位数,记为Q1;
位于1/2位置的数为上二分位数,记为Q2;
位于3/4位置的数为上四分位数,记为Q3;
最大的数值记为上届,也叫上边缘。
在这里插入图片描述
具体方法如下:其中Q3代表上四分位数,Q1代表下四分位数,k代表系数,可以取值1.5或3。

最大值估计= Q3+k(Q3-Q1)
最小值估计= Q1-k(Q3-Q1)
当k=3时,代表极度异常值;
当k=1.5时,代表中度异常值。

示例代码

import numpy as np
import matplotlib.pyplot as plt
from matplotlib import rcParams

config = {
    "font.family": 'serif', # 衬线字体
    "font.size": 10, # 相当于小四大小
    "font.serif": ['SimSun'], # 宋体
    "mathtext.fontset": 'stix', # matplotlib渲染数学字体时使用的字体,和Times New Roman差别不大
    'axes.unicode_minus': False # 处理负号,即-号
}
rcParams.update(config)
##========绘制时域信号图========##
def plt_time_domain(arr, fs=1600, ylabel='Amp(mg)', title='原始数据时域图', img_save_path=None, vline=None, hline=None, xlim=None):
    """
    :fun: 绘制时域图模板
    :param arr: 输入一维数组数据
    :param fs: 采样频率
    :param ylabel: y轴标签
    :param title: 图标题
    :return: None
    """
    import matplotlib.pyplot as plt
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 显示中文
    plt.rcParams['axes.unicode_minus'] = False  # 显示负号
    font = {'family': 'Times New Roman', 'size': '20', 'color': '0.5', 'weight': 'bold'}
    
    plt.figure(figsize=(12,4))
    length = len(arr)
    t = np.linspace(0, length/fs, length)
    plt.plot(t, arr, c='g')
    plt.xlabel('t(s)')
    plt.ylabel(ylabel)
    plt.title(title)
    if vline:
        plt.vlines(x=vline, ymin=np.min(arr), ymax=np.max(arr), linestyle='--', colors='r')
    if hline:
        plt.hlines(y=hline, xmin=np.min(t), xmax=np.max(t), linestyle=':', colors='y')
    if xlim: # 图片横坐标是否设置xlim
        plt.xlim(0, xlim)  
    #===保存图片====#
    if img_save_path:
        plt.savefig(img_save_path, dpi=500, bbox_inches = 'tight')
    plt.show()
# 生成一些随机数据
np.random.seed(0)
data = np.random.normal(loc=0, scale=1, size=100)
# 添加异常值
outliers_indices = [20, 40, 60, 80]
outliers_values = [3.0, -3.9, 4.1, -5.5]

for index, value in zip(outliers_indices, outliers_values):
    data[index] = value

# 计算四分位数和四分位距
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1

# 确定异常值的阈值
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 找到异常值
outliers_id_arr = np.where((data < lower_bound) | (data > upper_bound))

print("异常值:", data[outliers_id_arr])
plt_time_domain(data, hline=[lower_bound, upper_bound])

异常值: [3.0, -3.9, 4.1, -5.5]
在这里插入图片描述

点击阅读全文
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐