教你学Python43-我如何开始机器学习

我被问到的最常见问题是：“我如何开始？”我对机器学习入门的最佳建议分为五个步骤：步骤1：调整心态。相信您可以练习并应用机器学习。是什么让您从机器学习目标中退缩？为什么机器学习不必这么难如何思考机器学习找到您的机器学习部落步骤2：选择一个流程。使用系统的过程来解决问题。应用机器学习过程步骤3：选择...

程序员架构师13

384人浏览 · 2020-01-16 17:01:14

程序员架构师13 · 2020-01-16 17:01:14 发布

我被问到的最常见问题是：“ 我如何开始？”

我对机器学习入门的最佳建议分为五个步骤：

步骤1：调整心态。相信您可以练习并应用机器学习。是什么让您从机器学习目标中退缩？
步骤2：选择一个流程。使用系统的过程来解决问题。应用机器学习过程
步骤3：选择一个工具。为您的关卡选择一个工具，并将其映射到您的过程中。初学者： Weka Workbench。
- 中级： Python生态系统。
- 进阶：R Platform。
- 机器学习的最佳编程语言
步骤4：练习数据集。选择要处理的数据集并实践该过程。使用小型内存数据集练习机器学习
- 现实世界机器学习问题之旅
- 研究与您息息相关的机器学习问题
步骤5：建立投资组合。收集结果并展示您的技能。建立机器学习档案袋
- 获得报酬以应用机器学习
- 机器学习赚钱

有关此自顶向下方法的更多信息，请参见：

我的许多学生都使用这种方法在Kaggle比赛中继续表现出色，并获得了机器学习工程师和数据科学家的工作。

应用机器学习过程

机器学习的好处是预测和做出预测的模型。

拥有应用机器学习的技能意味着知道如何始终如一地可靠地对问题进行高质量的预测。您需要遵循系统的流程。

您可以按照以下5个步骤进行操作，以在预测建模问题上始终如一地获得高于平均水平的结果：

步骤1：定义您的问题。如何定义您的机器学习问题
第2步：准备数据。如何为机器学习准备数据
第3步：抽查算法。如何评估机器学习算法
步骤4：改善结果。如何改善机器学习结果
- 机器学习性能改进备忘单
- 如何提高深度学习表现
步骤5：呈现结果。如何使用机器学习结果
- 如何训练最终的机器学习模型
- 如何将预测模型部署到生产中

有关此过程的完整摘要，请参见以下文章：

机器学习的概率

概率是量化和控制不确定性的数学。它是许多数学领域（如统计学）的基石，对于应用机器学习至关重要。

以下是3个步骤的过程，您可以使用它来快速掌握机器学习的可能性。

第1步：发现概率。机器学习的数学符号基础
- 什么是概率？
步骤2：了解为什么概率对机器学习如此重要。学习机器学习概率的5个理由
- 机器学习不确定性的温和介绍
步骤3：研究“概率”主题。机器学习迷你课程的概率
- 机器学习的概率（我的书）

您可以在此处查看有关概率的所有教程。以下是一些最受欢迎的教程。

概率基础

贝叶斯定理

机器学习的贝叶斯定理的简要介绍
使用 Python从头开始开发Naive Bayes分类器
在 Python中从头开始实现贝叶斯优化

概率分布

信息论

机器学习统计

统计方法是深入了解机器学习算法行为所必需的重要数学基础领域。

下面是3个步骤的过程，您可以用来快速掌握用于机器学习的统计方法。

步骤1：发现什么是统计方法。什么是统计（以及为什么它在机器学习中很重要）？
步骤2：了解统计方法为何对机器学习很重要。应用统计与机器学习之间的密切关系
- 10个如何在机器学习项目中使用统计方法的示例
步骤3：深入探讨“统计方法”的主题。机器学习统计（7天迷你课程）
- 机器学习的统计方法（我的书）

您可以在此处查看所有统计方法的帖子。以下是一些最受欢迎的教程。

统计摘要

统计假设检验

重采样方法

估算统计

机器学习的线性代数

线性代数是实现对机器学习算法的更深入理解所需的重要数学基础领域。

以下是3个步骤，您可以用来快速学习线性代数以进行机器学习。

步骤1：发现什么是线性代数。机器学习的数学符号基础
- 线性代数的温和介绍
步骤2：了解线性代数为何对机器学习很重要。学习机器学习的线性代数的5个理由
- 机器学习中的10个线性代数示例
- 机器学习的线性代数
步骤3：研究线性代数主题。机器学习迷你课程的线性代数
- 机器学习的线性代数（我的书）

您可以在此处查看所有线性代数的帖子。以下是一些最受欢迎的教程。

Python中的线性代数

Python中的N维数组简介
如何索引，切片和重塑NumPy数组

矩阵

向量

矩阵分解

了解机器学习算法

机器学习与机器学习算法有关。

您需要知道哪些算法可用于给定问题，它们如何工作以及如何最大程度地利用它们。

这是机器学习算法的入门方法：

第1步：发现不同类型的机器学习算法。机器学习算法之旅
步骤2：发现机器学习算法的基础。机器学习算法如何工作
步骤3：了解顶级机器学习算法的工作原理。机器学习算法迷你课程
- 精通机器学习算法（我的书）

您可以在此处查看所有机器学习算法文章。以下是一些最受欢迎的教程。

线性算法

非线性算法

合奏算法

如何学习/学习机器学习算法

Weka机器学习（无代码）

Weka是一个平台，您可以使用它来开始应用机器学习。

它具有图形用户界面，这意味着无需编程，并且提供了一套最新的算法。

这是您如何开始使用Weka的方法：

步骤1：发现Weka平台的功能。什么是Weka机器学习工作台
第2步：探索如何绕过Weka平台。如何下载和安装Weka机器学习工作台
- Weka机器学习工作台之旅
步骤3：探索如何使用Weka交付结果。如何在Weka中运行您的第一个分类器
- Weka迷你课程的应用机器学习
- Weka精通机器学习（我的书）

您可以在此处查看所有Weka机器学习文章。以下是一些最受欢迎的教程。

在Weka中准备数据

Weka算法教程

Python机器学习（scikit-learn）

Python是应用机器学习发展最快的平台之一。

您可以在模型的开发和操作部署中使用相同的工具，例如pandas和scikit-learn。

以下是您可以用来开始使用Python机器学习的步骤：

第1步：发现Python用于机器学习Scikit-Learn的简要介绍：Python机器学习库
步骤2：探索Python机器学习的生态系统。面向机器学习开发人员的Python速成课程
- 机器学习的 Python生态系统
- Python是应用机器学习的成长平台
步骤3：探索如何使用Python中的机器学习解决问题。您的Python循序渐进的第一个机器学习项目
- Python机器学习迷你课程
- 精通 Python的机器学习（我的书）

您可以在此处查看所有 Python机器学习文章。以下是一些最受欢迎的教程。

用Python准备数据

如何在 Python中加载机器学习数据
使用 Python中的描述性统计信息了解您的机器学习数据
使用Pandas可视化 Python中的机器学习数据
如何使用Scikit-Learn为 Python中的机器学习准备数据
Python中机器学习的功能选择

Python机器学习

评估机器学习算法的性能
评估 Python中机器学习算法的指标
带有scikit-learn的 Python中的抽查分类机器学习算法
带有scikit-learn的 Python中的抽查回归机器学习算法
如何在scikit-learn中比较 Python中的机器学习算法

R机器学习（插入符号）

R是用于统计计算的平台，并且是专业数据科学家中最受欢迎的平台。

它之所以受欢迎，是因为有大量可用的技术，并且由于这些方法的强大接口（例如强大的插入符号程序包）。

这是R机器学习的入门方法：

第1步：了解R平台及其流行的原因。什么是R
- 使用R进行机器学习
- R中的超级快速速成课程
步骤2：探索R中的机器学习算法。如何开始使用R中的机器学习算法
步骤3：发现如何使用R中的机器学习解决问题。您的R循序渐进的第一个机器学习项目
- R机器学习迷你课程
- 精通R的机器学习（我的书）

您可以在这里查看所有R机器学习文章。以下是一些最受欢迎的教程。

R中的数据准备

R中的应用机器学习

从零开始的代码算法（Python）

通过从头开始编码，您可以学到很多有关机器学习算法的知识。

通过编码学习是许多开发人员和工程师的首选学习方式。

这是通过从头开始编写所有代码来开始机器学习的方法。

第1步：从零开始发现编码算法的好处。从头开始实施机器学习算法的好处
- 从头开始实施以了解机器学习算法
步骤2：发现从头开始编码算法只是一种学习工具。从头开始停止编码机器学习算法
- 实施机器学习算法时不要以开源代码开头
第3步：探索如何使用Python从头开始编写机器学习算法。从零开始的机器学习算法（我的书）

您可以在此处查看Scratch帖子中的所有代码算法。以下是一些最受欢迎的教程。

准备数据

线性算法

算法评估

非线性算法

时间序列预测简介（Python）

时间序列预测是业务应用程序中的重要主题。

许多数据集包含一个时间成分，但是从机器学习的角度来看，很少涉及时间序列的主题。

以下是时间序列预测的入门方法：

步骤1：发现时间序列预测。什么是时间序列预测？
第2步：发现时间序列为监督学习。时间序列预测作为监督学习
第3步：探索如何善于利用时序预测提供结果。使用 Python迷你课程进行时间序列预测
- 使用 Python进行时间序列预测（我的书）

您可以在此处查看所有时间序列预测帖子。以下是一些最受欢迎的教程。

数据准备教程

用于机器学习的7个时间序列数据集
如何在 Python中加载和探索时间序列数据
如何在 Python中标准化和标准化时间序列数据
使用 Python中的时间序列数据进行基本特征工程
如何回测时间序列预测的机器学习模型

预测教程

如何使用 Python进行时间序列预测的基线预测
如何使用 Python检查时间序列数据是否固定
如何使用 Python创建ARIMA模型进行时间序列预测
如何使用 Python网格搜索ARIMA模型超参数
如何完成时间序列预测项目

Python中的XGBoost（随机梯度增强）

XGBoost是梯度提升决策树的高度优化实现。

它之所以受欢迎，是因为它被世界上一些最好的数据科学家用来赢得机器学习竞赛。

这是XGBoost入门的方法：

步骤1：发现梯度提升算法。机器学习的梯度提升算法简介
第2步：发现XGBoost。XGBoost应用机器学习的温和介绍
步骤3：探索如何善于利用XGBoost交付结果。如何使用scikit-learn在 Python中开发您的第一个XGBoost模型
- XGBoost与 Python迷你课程
- XGBoost With Python（我的书）

您可以在此处查看所有XGBoosts帖子。以下是一些最受欢迎的教程。

XGBoost基础

在 Python中使用XGBoost进行梯度增强的数据准备
如何在 Python中使用XGBoost评估梯度提升模型
通过尽早停止使用 Python中的XGBoost来避免过度拟合
使用XGBoost在 Python中进行功能重要性和功能选择

XGBoost调整

如何配置梯度提升算法
在 Python中使用XGBoost进行梯度提升时的音调学习速率
在 Python中使用XGBoost和scikit-learn进行随机梯度增强
如何在 Python中使用XGBoost调整决策树的数量和大小
如何在 Python中优化对XGBoost的多线程支持

分类不平衡

不平衡分类是指分类任务，其中一类的实例比另一类更多。

这些类型的问题通常需要使用专门的性能指标和学习算法，因为标准指标和方法不可靠或完全失败。

这是不平衡分类的入门方法：

步骤1：发现不平衡分类的挑战关于不平衡分类的简要介绍
步骤2：发现倾斜的类分布的直觉。为严重偏斜的班级分配建立直觉
步骤3：发现如何解决不平衡分类问题。Python 7天迷你课程的不平衡分类（即将推出）
- Python的不平衡分类（我的书）

您可以在此处查看所有不平衡分类的帖子。

深度学习（Keras）

深度学习是一个引人入胜且强大的领域。

最新的结果来自深度学习领域，它是机器学习的一个子领域，不容忽视。

这是开始深度学习的方法：

步骤1：发现深度学习的全部内容。什么是深度学习？
- 8深度学习的启发性应用
第2步：发现最佳工具和库。Python深度学习库Theano简介
- Python深度学习库TensorFlow简介
- Keras的 Python深度学习简介
步骤3：发现如何解决问题并交付结果。使用Keras逐步开发 Python中的第一个神经网络
- Python迷你课程中的应用深度学习
- 使用 Python进行深度学习（我的书）