python建模预测_用Python建立预测模型的方法
由于近几年来,Python用户数量上涨及其本身的简洁性,使得这个工具包对数据科学世界的Python专家们变得有意义。本文将帮助你更快更好地建立第一个预测模型。绝大多数优秀的数据科学家和kagglers建立自己的第一个有效模型并快速提交。这不仅仅有助于他们领先于排行榜,而且提供了问题的基准解决方案。预测模型的分解过程我总是集中于投入有质量的时间在建模的初始阶段,比如,假设生成、头脑风暴、讨论或理解可
由于近几年来,
Python
用户数量上涨及其本身的简洁性,使得这个工具包对数
据科学世界的
Python
专家们变得有意义。本文将帮助你更快更好地建立第一个
预测模型。绝大多数优秀的数据科学家和
kagglers
建立自己的第一个有效模型
并快速提交。
这不仅仅有助于他们领先于排行榜,
而且提供了问题的基准解决方
案。
预测模型的分解过程
我总是集中于投入有质量的时间在建模的初始阶段,
比如,
假设生成、
头脑风暴、
讨论或理解可能的结果范围。
所有这些活动都有助于我解决问题,
并最终让我设
计出更强大的商业解决方案。
为什么你要在前面花费这段时间,
这有充分的理由:
1.
你有足够的时间投入并且你是无经验的(这是有影响的)
2.
你不带有其它数据观点或想法的偏见
(我总是建议,
在深入研究数据之前
做假设生成)
3.
在后面的阶段,你会急于完成该项目而没有能力投入有质量的时间了。
这个阶段需要投入高质量时间,
因此我没有提及时间表,
不过我建议你把它作为
标准的做法。
这有助于你建立建立更好地预测模型,
在后面的阶段的只需较少的
迭代工作。让我们来看看建立第一个模型的剩余阶段的时间表:
1.
数据描述性分析
——
50%
的时间
2.
数据预处理(缺失值和异常值修复)
——
40%
的时间
3.
数据建模
——
4%
的时间
4.
性能预测
——
6%
的时间
让我们一步一步完成每个过程(每一步投入预测的时间):
阶段
1
:描述性分析
/
数据探索
在我刚开始成为数据科学家的时候,
数据探索占据了我大量的时间。
不过,
随着
时间的推移,
我已经把大量的数据操作自动化了。
由于数据准备占据建立第一个
模型工作量的
50%
,自动化的好处是显而易见的。
更多推荐
所有评论(0)