前段时间读了一篇文章,将如何使用python做机器学习,原文是http://dataunion.org/15057.html

这里做一个简单总结,给没有思路的小伙伴一个方向。


1)配置环境

搜“Anaconda”


2)学习基础知识

http://www.codecademy.com/tracks/python

目标:要对类和对象的含义有了解。特别学习:Lists(列表),Tuples(元组),Dictionaries(字典)。


3)学习正则表达式

https://developers.google.com/edu/python/regular-expressions

特别是在处理文本数据时,数据清洗,很常用。

完成“baby name exercise”:https://developers.google.com/edu/python/exercises/baby-names

记住这个:https://www.debuggex.com/cheatsheet/regex/python

如果牛逼,看这个:http://www.analyticsvidhya.com/blog/2014/11/text-data-cleaning-steps-python/


4)学习Python科学库

首先,完整地练习NumPy操作课程,特别是NumPy的数组操作。http://wiki.scipy.org/Tentative_NumPy_Tutorial

接下来,看看SciPy的课程。完整学习简介和基础知识部分,剩余部分可根据个人需要进行学习。http://docs.scipy.org/doc/scipy/reference/tutorial/

最后,我们来看Pandas。它为Python提供了数据帧(DataFrame)的功能,类似于R语言。你也需要在这上面多花时间好好练习。对于所有中等规模的数据分析来说,Panda将会成为最有效的工具。从这个短小的10分钟入门开始(http://pandas.pydata.org/pandas-docs/stable/10min.html),了解一下Pandas。然后仔细看http://www.gregreda.com/2013/10/26/intro-to-pandas-data-structures/。还可以看看“用Pandas进行探索性数据分析”(http://www.analyticsvidhya.com/blog/2014/09/data-munging-python-using-pandas-baby-steps-python/)以及“用Pandas进行数据整合”(http://www.analyticsvidhya.com/blog/2014/08/baby-steps-python-performing-exploratory-analysis-python/)两篇文章。

如果需要一本有关Pandas和NumPy的教材,推荐Wes McKinney著的《Python for Data Analysis》

完成来自哈佛大学CS109课程的作业(http://nbviewer.ipython.org/github/cs109/2014/blob/master/homework/HW1.ipynb)。


5)学习数据可视化

学完这个来自CS109的课程(http://cm.dce.harvard.edu/2015/01/14328/L03/screen_H264HighBandwidthTalkingHead-16x9.shtml)

跟完这个作业(http://nbviewer.ipython.org/github/cs109/2014/blob/master/homework/HW2.ipynb)


6)学习Scikit-learn和机器学习

scikit-learn.org/stable/user_guide.html

http://cs109.github.io/2014/pages/schedule.html

下面两个也不错:

如果有一本必读的书,那就是《Programming Collective Intelligence》,非常经典。

Andrew Ng的课:https://www.coursera.org/course/ml


7)然后就是练习、练习、再练习

https://www.kaggle.com/

https://www.kaggle.com/c/data-science-london-scikit-learn


8)深度学习

http://www.analyticsvidhya.com/blog/2014/06/deep-learning-attention/

http://deeplearning.net

Geoff Hinton的课:https://www.coursera.org/course/neuralnets




好多东西呀!!!

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐