Hello, World!
在CSDN中学习到很多东西,很高兴能开始写作为后来的人铺路。

机器学习大体上包括监督学习(Supervised Learning)、无监督学习(Unsupervised Lea)和增强学习(Reinforcement Learning)。监督学习和无监督学习的主要区别是:监督学习有标签,对应两大类问题——回归(连续)和分类(离散);无监督学习没有标签,对应的是聚类问题。增强学习中比较典型的有隐马尔可夫模型,对应的有三类问题,后面详细介绍。

回归问题:比如根据往年房价数据,预测今年房价
分类问题:根据西瓜的特征和标签(好瓜还是坏瓜)建立模型,给你一个瓜,你给出判断是好瓜还是坏瓜。
聚类问题:比如给你各种形态的你不认识的恐龙,让你根据形态分出哪些可能是同样的种类。

监督学习主要包括下面几块内容
1.(1)线性回归(Linear Regression)、岭回归(Ridge)、Lasso回归
(2)逻辑回归(Logistic Regression)
(3)Softmax Regression
2.(1) Decision tree
(2) CART、Adaboost、GBDT、XGBoost
(3) Random forest
3.(1)CNN(卷积神经网络)
(2)RNN(循环神经网络)
(3)LSTM(长短期记忆神经网络)
4.SVM(支持向量机)
5.Naive Bayes(朴素贝叶斯)
6.Gaussian discriminant analysis(高斯判别分析)

无监督学习主要包括下面几块内容
1.k-means
2.Mixtures of Gaussians
3.降维方法: FA(主因子分析),PCA(主成分分析),ICA(独立成分分析)

番外篇
以上只是数据处理中构建模型的环节
kaggle比赛或者实际工作中数据处理的流程主要包括下面几项
(1)获取数据:没有数据的话可以爬虫获取
(2)数据的预处理:不相关的信息去掉,文本信息转化为计算机可以处理的数据
(3)数据集分割:分割为训练集和测试集,其中还有把训练集分割为训练集和交叉验证集。
(4)特征提取:这一项是最最重要的环节,也是花时间比较多的环节,这里面就需要用到数据可视化的技术,看看变量分布是什么样的。
(5)构建模型:整个机器学习环节学到的技术,现在有sklearn,大多数都可以掉包,但是仍然需要从底层理解机器学习技术,这样就知道如何调整机器学习模型。
(6)模型评估:不同问题有不同的评判标准。

**小白第一次写技术博客,欢迎技术大神指摘.

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐