机器学习0(大纲)

Hello, World!在CSDN中学习到很多东西，很高兴能开始写作为后来的人铺路。机器学习大体上包括监督学习（Supervised Learning）、无监督学习(Unsupervised Lea)和增强学习(Reinforcement Learning)。监督学习和无监督学习的主要区别是：监督学习有标签，对应两大类问题——回归(连续)和分类(离散)；无监督学习没有标签,对应的是聚类问...

zhuchangbo18

730人浏览 · 2018-08-24 10:19:22

zhuchangbo18 · 2018-08-24 10:19:22 发布

Hello, World!
在CSDN中学习到很多东西，很高兴能开始写作为后来的人铺路。

机器学习大体上包括监督学习（Supervised Learning）、无监督学习(Unsupervised Lea)和增强学习(Reinforcement Learning)。监督学习和无监督学习的主要区别是：监督学习有标签，对应两大类问题——回归(连续)和分类(离散)；无监督学习没有标签,对应的是聚类问题。增强学习中比较典型的有隐马尔可夫模型，对应的有三类问题，后面详细介绍。

回归问题：比如根据往年房价数据，预测今年房价
分类问题：根据西瓜的特征和标签(好瓜还是坏瓜)建立模型，给你一个瓜，你给出判断是好瓜还是坏瓜。
聚类问题：比如给你各种形态的你不认识的恐龙，让你根据形态分出哪些可能是同样的种类。

监督学习主要包括下面几块内容
1.(1)线性回归(Linear Regression)、岭回归(Ridge)、Lasso回归
(2)逻辑回归(Logistic Regression)
(3)Softmax Regression
2.(1) Decision tree
(2) CART、Adaboost、GBDT、XGBoost
(3) Random forest
3.(1)CNN(卷积神经网络)
(2)RNN(循环神经网络)
(3)LSTM(长短期记忆神经网络)
4.SVM（支持向量机）
5.Naive Bayes（朴素贝叶斯）
6.Gaussian discriminant analysis（高斯判别分析）

无监督学习主要包括下面几块内容
1.k-means
2.Mixtures of Gaussians
3.降维方法: FA（主因子分析）,PCA（主成分分析）,ICA(独立成分分析)

番外篇
以上只是数据处理中构建模型的环节
kaggle比赛或者实际工作中数据处理的流程主要包括下面几项
(1)获取数据:没有数据的话可以爬虫获取
(2)数据的预处理：不相关的信息去掉，文本信息转化为计算机可以处理的数据
(3)数据集分割：分割为训练集和测试集，其中还有把训练集分割为训练集和交叉验证集。
(4)特征提取：这一项是最最重要的环节，也是花时间比较多的环节，这里面就需要用到数据可视化的技术，看看变量分布是什么样的。
(5)构建模型：整个机器学习环节学到的技术，现在有sklearn，大多数都可以掉包，但是仍然需要从底层理解机器学习技术，这样就知道如何调整机器学习模型。
(6)模型评估：不同问题有不同的评判标准。

**小白第一次写技术博客，欢迎技术大神指摘.