BigQuery ML新特性:时间序列和非时间序列数据的无监督异常检测

BIGdd

54人浏览 · 2022-08-17 14:15:19

BIGdd · 2022-08-17 14:15:19 发布

在异常检测方面,主要挑战是难以定义异常。例如,我们如何定义和预测异常的网络入侵、系统缺陷和安全欺诈?如果已知异常数据已被标记,我们可以从 BigQuery ML 支持的各种类型的监督机器学习模型中进行选择(详见下方链接)。但是如果我们不知道会发生异常并且没有标记数据怎么办?与使用监督学习的典型预测技术不同,我们此时可能需要能够在没有标记数据的情况下检测异常。

机器学习模型:https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-syntax-create#create_model_syntax

7 月初,谷歌宣布将公开预览 BigQuery ML 中的新异常检测功能,该功能使用无监督机器学习来帮助检测异常,而无需标记数据。根据训练数据是否为时间序列,用户现在可以使用新的 ml.detect_ 异常函数使用以下模型来检测训练数据或新输入数据中的异常:

自动编码器型号,内测中;
K-means模型,已对外开放;
ARIMA_PLUS时间序列模型已对外开放。

如何使用 ML.DETECT_ANOMALIES 模型进行异常检测?

要检测非时间序列数据中的异常,我们可以使用:

K-means 聚类模型:当使用 K-means 模型时,根据每个输入数据点与其最近聚类之间的归一化距离来识别异常。如果距离超过用户提供的污染值确定的阈值,则认为数据点异常。

Autoencoder模型:使用autoencoder模型时,会根据每个数据点的重构误差来识别异常。如果误差超过污染值确定的阈值,则认为是异常。

要检测时间序列数据中的异常,您可以使用:

ARIMA_PLUS时间序列模型:使用Arima_plus模型时,会根据时间戳的置信区间识别异常。如果时间戳中的数据点出现在预测区间之外的概率超过用户提供的概率阈值,则将该数据点识别为异常。

让我们一一展示BigQuery}ML中异常检测的代码示例在每个场景中。

创建模型`mydataset.my_kmeans_model`OPTIONS(模型_TYPE u003d 'kmeans',NUM_CLUSTERS u003d 8,KMEANS_INIT_METHOD u003d 'kmeans++')ASSELECT * 除了(时间,类)来自`bigquery-public-data.ml_datasets.ulb_fraud_detection`;

训练 K-means 聚类模型后,运行 ML.DETECT_ANOMALIES 以检测训练数据或新输入数据中的异常。需要 Ml.detect_ Anomalies 与训练期间使用的数据相同:

SELECT *FROM ML.DETECT_ANOMALIES(模型 `mydataset.my_kmeans_model`, STRUCT(0.02 AS 污染), 表 `bigquery-public-data.ml_datasets.ulb_fraud_detection`);

Ml.detect 也是必需的_异常并提供新数据作为输入:

SELECT *FROM ML.DETECT_ANOMALIES(型号 `mydataset.my_kmeans_model`, STRUCT(0.02 AS 污染), (SELECT * FROM `mydataset.newdata`));

K-means 聚类模型的异常检测如何工作?

根据从每个输入数据点到其最近聚类的归一化距离值来识别异常。如果超过污染值确定的阈值,则被识别为异常。以 K-means 模型和数据为输入,ML.DETECT_ANOMALIES 首先计算每个输入数据点到模型中所有簇的质心的绝对距离,然后通过它们各自的簇半径(定义为到所有簇的绝对距离)簇中的点指向质心)。对于每个数据点,ML.DETECT_ANOMALIES 根据归一化_distance 返回最近的质心_id,如上面的屏幕截图所示。用户指定的污染值决定了数据点是否被认为异常的阈值。例如,污染值 0.1 意味着从训练数据降序排列的归一化距离的前 10% 将用作截止阈值。如果数据点的归一化距离超过阈值,则将其识别为异常。设置合适的污染高度取决于用户或企业的要求。

有关使用 K-means 聚类进行异常检测的更多信息,请阅读:

https://translate.google.com/translate?hl=en&sl=auto&tl=zh&u=https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-syntax-detect-anomalies#kmeans_model_example

使用自动编码器模型进行异常检测

使用自动编码器模型,运行 ML.DETECT_ANOMALIES 以检测训练数据或新输入数据中的异常。

首先,创建一个 Autoencoder 模型:

创建模型`mydataset.my_autoencoder_model`OPTIONS(模型_typeu003d'autoencoder', activation_fnu003d'relu', batch_sizeu003d8, dropoutu003d0.2, hidden_unitsu003d[32, 16, 4, 16, 32], learn_rateu003d0.001, l1_reg_activationu003d0.0001, max_iterationsu003d10, optimizeru003d'adam' ) AS SELECT * EXCEPT(Time, Class) FROM `bigquery-public-data.ml_datasets.ulb_fraud_detection`;

要检测训练数据中的异常,需要 ml.detect_ Anomalies 与训练期间使用的数据相同:

选择*从 ML.DETECT_ANOMALIES(模型 `mydataset.my_autoencoder_model`,结构(0.02 作为污染),表 `bigquery-public-data.ml_datasets.ulb_fraud_detection`)

要检测新数据中的异常,请使用 ML.DETECT_ANOMALIES 并提供新数据作为输入:

SELECT *FROM ML.DETECT_ANOMALIES(MODEL `mydataset.my_autoencoder_model`, STRUCT(0.02 AS 污染), (SELECT * FROM `mydataset.newdata`));

Autoencoder 模型的异常检测如何工作?

根据每个输入数据点的重构误差值识别异常。如果超过污染值确定的阈值,则被识别为异常。使用 Autoencoder 模型和数据作为输入,ML.DETECT_ANOMALIES 首先计算每个数据点的原始值和重建值之间的均值_ 平方_ 误差。用户指定的污染值决定了数据点是否被认为异常的阈值。例如,污染值为 0.1 意味着训练数据下降误差的前 10% 将用作截止阈值。设置合适的污染高度取决于用户或企业的要求。

有关使用 Autoencoder 模型进行异常检测的更多信息,您可以阅读文档:

https://translate.google.com/translate?hl=en&sl=auto&tl=zh&u=https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-syntax-detect-anomalies#autoencoder_model_example

使用 ARIMA_PLUS 时间序列模型进行异常检测

我们现在可以使用 Arima_plus 时间序列模型检测(历史)训练数据或新输入数据中的异常。以下是一些场景下检测时序数据异常的示例:

检测历史数据中的异常:

出于预测和建模目的清理数据,例如在使用历史时间序列训练 ML 模型之前对其进行预处理。

例如,当有大量的零售需求时间序列(邮政编码有数百家商店或数千种产品)时,我们可能希望快速确定哪些商店和产品类别存在异常的销售模式,然后进行更深入的分析。深入分析异常的原因。

前瞻性异常检测:

尽早发现消费者行为和定价异常:例如,如果特定产品页面上的流量突然突然激增,则可能由于定价过程中的错误导致价格异常低。

当有大量的零售需求时间序列(邮编上百家店铺或上千种商品)时,我们可以根据预测判断哪些店铺和商品品类有异常的销售模式,以便快速应对突发事件高峰或低谷。

那么如何使用 ARIMA_PLUS 检测异常呢?首先创建一个 ARIMA_PLUS 时间序列模型:

创建或替换模型 mydataset.my_arima_plus_modelOPTIONS( MODEL_TYPEu003d'ARIMA_PLUS', TIME_SERIES_TIMESTAMP_COLu003d'date', TIME_SERIES_DATA_COLu003d'total_amount\ _sold', IME_SERIES_ID_COLu003d'item_name', HOLIDAY_REGIONu003d'US' ) ASSELECT date, item_description AS item_name, SUM(bottles_sold) AS total_amount_soldFROM `bigquery-public-data.iowa_liquor_sales.sales`GROUP BY date, item_nameHAVING date BETWEEN DATE('2016-01-04') AND DATE('2017-06-01') AND item_name IN ("Black Velvet", "Captain Morgan Spiced Rum", "Hawkeye Vodka ”、“五点钟伏特加”、“火球肉桂威士忌”)

要检测训练数据中的异常,还需要对上面得到的模型使用ml.detect_ANOMALIES

选择 * 从 ML.DETECT_ANOMALIES(模型 `mydataset.my_arima_plus_model`, STRUCT(0.8 AS anomaly_prob_threshold));

此外,我们还使用 ML.DETECT_ANOMALIES 并提供新数据作为输入:

WITH new_data AS (SELECT date, item_description AS item_name, SUM(bottles_sold) AS total_amount_sold FROM `bigquery-public-data.iowa_liquor_sales.sales`GROUP BY date, item_name HAVING date BETWEEN DATE('2017-06- 02') AND DATE('2017-10-01') AND item_name IN ('Black Velvet', 'Captain Morgan Spiced Rum', 'Hawkeye Vodka', "Five O'Clock Vodka", 'Fireball Cinnamon Whiskey' ) )SELECT *FROM ML.DETECT_ANOMALIES(MODEL `mydataset.my_arima_plus_model`, STRUCT(0.8 AS anomaly_prob_threshold), (SELECT * FROM new_data));

最后,关于使用Arima_关于使用plus时间序列模型进行异常检测的更多信息,请参考文档:https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-syntax -检测异常#arima_plus_model_example_without_specified_settings

编译自:bigquery ml 的新增功能:时间序列和非时间序列数据的无监督异常检测

向你推荐>>>开发者社区

华为、百度、京东云现已入驻，来创建你的专属开发者社区吧！

更多推荐

关于 Jupyter 笔记本最糟糕的五件事

我曾经喜欢 Jupyter。我仍然认为它们是许多任务的绝佳工具,例如探索性数据分析和轻松轻松地向同事展示见解。然而,虽然它们有时非常适合数据科学,但有时却令人头疼。像任何软件工具一样,它们也有其缺点。以下是 Jupyter Notebooks 用于数据科学的五个最糟糕的事情: 1.练习良好的代码版本控制几乎是不可能的 Jupyter Notebooks 对于代码版本控制来说很糟糕。问题是它们存储为

大数据

2023 年流行的大数据和数据科学角色

数据科学和大数据提供了广泛的职业前景。涉及数据的角色的扩展伴随着数据科学的出现。它是当今最流行和最前沿的技术应用领域之一,这是有道理的。数据科学目前可能是最好的就业市场。与此同时,这一发展中的主题正在改变众多业务和技术。随着所有垂直领域的行业越来越受数据驱动,就业市场和必要的技能受到影响。随着我们学习新的数据接触点和评估方法,我们生活的社会、日常生活和国家经济越来越依赖数据。这是大数据和数据科学能

大数据

数据科学的主要组成部分和特点

数据科学是十年来增长最快、最具挑战性和高薪的工作之一。那么,究竟什么是数据科学?数据科学是一个跨学科领域,它结合了统计学、计算机科学和机器学习算法,以从结构化和非结构化数据中获得洞察力。据《经济时报》报道,尽管供应增长缓慢,但印度对通过数据科学课程认证的各行业数据科学专业人员的需求增长了 400% 以上。数据科学的组成部分 1\。数据探索这是最关键的一步,因为它花费的时间最多。数据探索消耗了大