机器学习与数据挖掘课程作业基于数据驱动的空调结霜程度检测方法研究

机器学习与数据挖掘课程作业基于数据驱动的空调结霜程度检测方法研究摘要：在我国的夏热冬冷地区，由于没有集中供暖，在冬季使用空调制热进行供暖是一种很常见的方式，但该地区冬季空气相对湿度较高并且环境温度低，空调的室外换热器表面很容易出现结霜现象，导致空调制热效率的降低以及能源的浪费。如何及时准确地对空调的结霜程度进行检测，从而适时地启动除霜程序，避免结霜程...

樱桃木

1494人浏览 · 2020-03-03 17:54:48

樱桃木 · 2020-03-03 17:54:48 发布

机器学习与数据挖掘

课程作业

基于数据驱动的空调结霜程度检测方法研究

摘要：

在我国的夏热冬冷地区，由于没有集中供暖，在冬季使用空调制热进行供暖是一种很常见的方式，但该地区冬季空气相对湿度较高并且环境温度低，空调的室外换热器表面很容易出现结霜现象，导致空调制热效率的降低以及能源的浪费。如何及时准确地对空调的结霜程度进行检测，从而适时地启动除霜程序，避免结霜程度过高引起的一系列问题，具有尤为重要的意义。

本文使用来自某公司的空调结霜实验数据，针对该原始结霜数据中存在的重复数据过多会大大延长检测时间、降低检测准确率的问题，使用近邻排序算法对其中的重复数据进行数据清理。另外该原始结霜数据包含的18个特征属性中有若干个属性的值始终不变或变化较小，针对这种情况，采用递归特征消除方法对去重后的数据进行了特征选择，找出了与空调结霜程度相关性较高的12个特征属性。

在对原始空调结霜数据进行数据清洗与特征选择的基础上，使用了XGBoost算法对结霜程度进行检测，并通过三组对比实验分析了特征维数对检测准确率的影响。另外采用粒子群算法对XGBoost的参数进行优化，并与GBDT、LightGBM等算法的检测效果进行对比，实验结果表明粒子群优化的XGBoost(PSO-XGBoost)在空调的结霜程度检测上具有比较好的效果。

主题词：结霜程度检测数据清洗特征提取粒子群优化 XGBoost

1 引言

1.1 项目目标

随着国家经济的发展、人民生活水平的稳步提升以及极端寒冷天气的增加，在冬季人们对于室内环境舒适性的要求也在逐渐升高，冬季供暖需要的增加导致了建筑能耗的大大增加。而在我国的夏热冬冷地区，空调具有夏季制冷冬季制热的明显优势，在冬季是该地区广泛使用的取暖方式，但该地区的冬季一般比较寒冷潮湿，用来供暖的空调、空气源热泵等设备很容易出现结霜现象，导致制热效果不理想、能源大大浪费、有时甚至会毁坏设备。如何对结霜的程度进行准确地检测并提前采取除霜措施具有非常重要的意义，近些年来数据驱动以及人工智能技术的发展为结霜程度的检测提供了一个新的方向。本文对基于数据驱动的空调结霜程度检测方法进行了研究，重点围绕如何对原始空调结霜数据进行数据清洗、结霜程度检测方法的准确率如何提高这两个问题展开研究。

1.2 项目主要内容

1.2.1 数据清洗

空调的结霜过程很容易受到类似温度、空气湿度等因素的影响，因而通常具有非常明显的时变性和非线性特征。本文使用的原始空调结霜数据来自于某公司的空调结霜实验，其中一共包含39万多条数据。如果直接使用这些原始数据来对空调的结霜程度进行检测，不仅训练算法模型的耗时很长，而且结霜程度的检测准确率也不高，容易受到重复数据的影响。为了保证用于对后续算法模型进行训练的数据以及特征属性的合理性，本文使用近邻排序算法对原始结霜数据中的重复数据进行数据清洗。

1.2.2 特征选择

本文使用的原始空调结霜数据中一共包含24个特征，其中6个为状态变量，另外18个为数据变量，这24个特征中有若干个可能与结霜程度的相关性不高，如何从中选择出与结霜程度相关性较高的特征，以用于对后续的检测模型进行训练，具有很重要的意义。本文使用递归特征消除方法从原始的18个特征属性中选出了与结霜程度相关性较高的12个特征属性，从而实现特征选择。

1.2.3 空调结霜程度检测方法适用性

由于不同检测方法在该空调结霜数据上的检测效果有一定差异，需要从中找出检测效果最佳的方法，为此本文比较了一些常用的的机器学习算法在结霜程度检测上的效果，如： XGBoost、LightGBM等。针对表现较好的XGBoost算法，本文分析了XGBoost参数对检测结果的影响，并采用粒子群算法对XGBoost的参数进行优化，以得到最好的综合检测效果。

1.3 论文结构安排

本文对空调结霜程度检测中的数据清洗方法、特征选择方法以及结霜程度检测算法进行了研究，所用的原始空调结霜数据来自于某公司的空调结霜实验。在数据预处理部分，针对所用的原始数据中数据量过大、重复数据过多以及无关特征属性较多的特点，首先使用近邻排序算法对重复数据进行查找与清洗，而后使用递归特征消除方法选择出与结霜程度相关性较高的特征属性，并且在后续的结霜程度检测中验证了该特征选择方法的效果。在结霜程度检测部分，通过XGBoost算法对结霜数据进行分类，进而实现了对结霜程度进行检测的目的，并且使用粒子群算法对XGBoost的参数进行优化，找到了使得检测准确率最高的参数。

算法效果		GBDT	LightGBM	XGBoost	PSO-XGBoost
正确率	6个特征	0.7365	0.8263	0.8157	0.8732
	12个特征	0.8476	0.9326	0.9358	0.9479
	18个特征	0.8436	0.9320	0.9344	0.9488
单样本检测时间(ms)	6个特征	0.7807	1.9811	1.1482	1.8714
	12个特征	0.7985	1.3657	1.3879	2.7465
	18个特征	0.9481	1.8268	1.3073	2.4442

机器学习与数据挖掘 课程作业 基于数据驱动的空调结霜程度检测方法研究

樱桃木

所有评论(0)

樱桃木

机器学习与数据挖掘课程作业基于数据驱动的空调结霜程度检测方法研究