本文内容是对《Python数据科学技术详解与商业实战》的个人理解

一、数据挖掘方法

1、描述性数据挖掘(模式识别)

  • 数据建模一般有多个属性或变量
  • 属性用于描述各个观测者的特征
  • 可以发现彼此间的关联

具体算法:
1】、聚类分析
把客户分类,使用多个变量进行细分。
2】、关联规则分析
捆绑销售和推荐类似商品

2、预测性数据分析

  • 有明确的预测变量和相应的因变量

具体算法:
1】、决策树
按图索骥,一个规则一个规则逐条检验
2】、KNN算法
惰性算法,事先不建立全局的判别公式或规则,当新数据需要分类时,根据各个样本与现有样本间的距离取最近的K个样本点的众数(Y为分类变量)或均值(Y为连续变量)
作为新样本的预测值
3】、Logistic回归
对数据线性划分
4】、神经网络
对数据非线性划分,划分依据随机产生,沿与概率变化方向垂直的方向做标尺
5】、支持向量机
寻找一个高位超平面,分开低维度下成功与不成功的点。一些数据在低维空间会有线性不可分问题,支持向量机可以做升维处理
6】、集成学习
通过做多个复杂的模型同时做预测,取预测的均值做最后的预测值

排序类算法适用于解释变量是人为定义的情况:信用评分、流失预测。。。
决策类—客观存在非人为定义:人脸识别、声音识别。。。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐