目录

一、启用

二、数据挖掘

三、数据挖掘的应用

四、数据挖掘实例

五、数据挖掘 DM-sample

(一)数据挖掘中的数据角色:

(二)抽样带来的2个问题

(三)抽样的方法决定前述2个问题的解决

(四)变量属性

(五)数据类型

六、数据挖掘DM-explore

七、数据挖掘DM-modify

八、数据挖掘DM-model

九、数据挖掘DM-assess


一、启用

二、数据挖掘

  • 大型数据远在天边,近在眼前
  • 数据的迅速增加与数据分析方法的滞后之间的矛盾→数据挖掘应运而生
  • 数据挖掘是从大量数据中提取出隐藏在数据之后的有用的信息,揭示潜藏在大型数据里的事物规律

三、数据挖掘的应用

  • 天文学:SKICAT(Sky Image Cataloging and Analysis Tool),自动分类和测量到的天体
  • 金融投资:对大量即时数据进行自动分析和学习提高
  • 市场营销:通过数据分析了解客户购物行为的一些特征

四、数据挖掘实例

市场营销:投放宣传品的数据挖掘

  1. 界定商业问题
  2. 数据转为信息
  3. 基于信息的商业行为
  4. 结果评估

五、数据挖掘 DM-sample

(一)数据挖掘中的数据角色:

  • raw:原始数据
  • training:用于建模的训练数据
  • validation:调整模型估计量值的数据
  • test:检验模型的数据
  • score:得分数据,记录分析结果

(二)抽样带来的2个问题

  1. 多大比例的样本能真实反应整体
  2. 样本的质量问题如何决定样本的有效性。高质量的样本应该是整体的一个精确微缩,它保存了单个变量的分布和变量之间的关系

(三)抽样的方法决定前述2个问题的解决

  1. 简单随机抽样
  2. 分层随机抽样
  3. 过度抽样 oversampling:原始数据少,放大样本

(四)变量属性

  • target--目标变量
  • input--可以进行预测的变量
  • reject--不可以进行预测的变量
  • id--标识变量

(五)数据类型

  • unary--1个值变量
  • binary--2个值变量
  • nominal--多于2个值的名义变量
  • ordinal--多于2个不多于10个值的数值变量
  • interval--多于10个值的数值变量

六、数据挖掘DM-explore

1. DM 视目标事件的值为排序第一的值,调整排序

2. 考虑成本和利润:

  • 错误的投放:成本¥10
  • 正确的投放:利润¥90-¥10=¥80

3. target profile:创建决策矩阵

  • 利润矩阵
  • 成本
  • 先验概率

七、数据挖掘DM-modify

1. 数据集角色分块

数据分割:训练、校验、测试

2. 缺失值处理:

  • replacement填充interval类型变量填充为均值
  • binary,nominal,ordinal类型变量填充为出现概率最大的值

八、数据挖掘DM-model

1. 回归模型:建立单个或多个分析变量与一个目标变量之间的关系(一般线性回归和logistic回归)

2. 聚类模型:对多维数据进行降维处理

九、数据挖掘DM-assess

模型的评估:lift chart 给每个客户一个评分,说明其购买的可能性

目标客户得分

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐