机器学习和统计学的区别

机器学习跟统计学有很多联系，的确这两个专业有很多共性，但本文尝试列举一些差异，供大家参考和对比，也欢迎大家补充。机器学习统计学定义机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心。统...

sigtem

10924人浏览 · 2018-06-05 20:48:54

sigtem · 2018-06-05 20:48:54 发布

机器学习跟统计学有很多联系，的确这两个专业有很多共性，但本文尝试列举一些差异，供大家参考和对比，也欢迎大家补充。

	机器学习	统计学
定义	机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心。	统计学是关于认识客观现象总体数量特征和数量关系的科学。它是通过搜集、整理、分析统计资料，认识客观现象数量规律性的方法论科学。
所属学科	不是一级学科，通常设在计算机科学、数学或自动化专业下面。机器学习在本科课程中顶多只是一门课，而不是一个独立的专业。	本身就是一级学科，国内高校也有把统计学归入数学学科下的，国外高校统计学专业一般设在独立的统计系里。
分析数据时关注点	模型的泛化能力，预测的精确度/召回率，算法的计算复杂度。	模型或参数的显著性水平，置信度，及各种统计量意义。
获取模型参数方法	根据训练数据集让机器自己学习，其实是一种数值计算方法，给参数初始值后根据损失不断迭代修正参数，使得损失达到最小。往往通过梯度下降等算法搜索损失函数的最小点。	根据样本数据进行参数估计，常用MLE和矩估计，讲究估计的无偏性、相合性、P-Value。
模型验证方法	直接用数据集验证，通常将数据集先分成training data和testing data，把training data上训练得出的模型放到testing data上检验效果。	一般不做交叉验证，而用各种统计量、假设检验、拟合优度和置信度来评价模型。交叉验证是一种直观的实证手段，但结果具有偶然性，而统计学讲究数学上的一般性。
分类	监督学习、无监督学习、强化学习，或者分为统计学习和深度学习。深度学习跟统计学联系不大。	有多种分类方法，按学科发展历史分为经典统计学（频率统计学）和贝叶斯统计学，按功能分为描述统计和推断统计，按研究重点分为理论统计学和应用统计学。此外，统计学可应用于不同学科，衍生出统计学分支领域，例如生物信息学、计量经济学、量子力学、随机信号处理等。
Python典型的库	sklearn, tensorflow, keras, XGBoost等	scipy, statsmodels