机器学习的基本概念

机器学习 (Machine Learning, ML) 是人工智能（AI）的一个重要分支，指从有限的样本中通过算法总结出一般性的规律，并可以应用到新的未知的数据上。举个生活中的例子假设你要写一个「垃圾邮件识别」程序：包含“中奖”字样 → 垃圾邮件来自陌生地址 → 垃圾邮件有超多链接 → 垃圾邮件然后把这些规则一个个硬编码在程序里。一堆标注为“垃圾邮件”的邮件一堆标注为“正常邮件”的邮件机器会根据这

ting_zh

241人浏览 · 2025-10-10 13:47:50

ting_zh · 2025-10-10 13:47:50 发布

1. 定义

机器学习 (Machine Learning, ML) 是人工智能（AI）的一个重要分支，指从有限的样本中通过算法总结出一般性的规律，并可以应用到新的未知的数据上。

举个生活中的例子

假设你要写一个「垃圾邮件识别」程序：

传统编程方法：你需要手动写很多规则，比如：
- 包含“中奖”字样 → 垃圾邮件
- 来自陌生地址 → 垃圾邮件
- 有超多链接 → 垃圾邮件
然后把这些规则一个个硬编码在程序里。
机器学习方法：你不写这些规则，而是给程序大量的例子：
- 一堆标注为“垃圾邮件”的邮件
- 一堆标注为“正常邮件”的邮件
机器会根据这些数据，自动学出一套识别规律（模型）。之后遇到新邮件，它就能自己判断是不是垃圾邮件了。

这就是机器学习：从数据中学习模型，而不是靠人工设定规则。

2. 机器学习的三个基本要素

2.1. 模型

从数据中识别的规则，是输入特征到输出结果的一个映射。

分类：

线性模型：

输入特征与输出之间是线性关系。比如买苹果，一斤5元，2斤10元，3斤15元，花的钱和买的斤数是成固定比例的。
非线性模型

输入特征与输出之间是非线性关系。比如种庄稼，前期施肥，产量会快速增长，但施肥过多后，产量可能不涨甚至下降，结果和数据的关系是“曲线”。

2.2. 学习准则

损失函数

损失函数是用来量化模型预测和真实标签之间的差异。
风险最小化准则

核心目标是通过调整模型参数，让整个训练数据集的“平均损失”降到最低，确保模型整体预测更准确。

2.3 优化算法

优化算法是模型实现风险最小化的工具，通过特点策略调整参数，让损失值逐步降低。

参数和超参数
- 参数：模型在训练过程中，从数据里自主学习、自动调整的“内部变量”，是模型用来拟合数据规则的核心。
- 超参数：在模拟训练开始钱，由人工根据经验或实验设定的“外部配置“，决定模型的训练方式和结构。比如梯度下降算法中的步长、神经网络的层数等。
核心优化算法：梯度下降

3. 机器学习的类型

监督学习

训练数据有“输入特征+对应真实标签”，模型学习“特征->标签”的映射。

无监督学习

训练数据只有“输入特征”，无真实标签，模型自主挖掘数据的内在结构。

强化学习

模型通过“与环境交互”学习：做出动作后，环境反馈“奖励”或“惩罚”，模型以“累计奖励最大”为目标调整策略。

4. 数据的特征表示

将原始数据转化为模型能理解的数值形式的过程。

图像特征

将图像中的像素信息转化为数值特征。比如提取图像边缘、纹理、形状等特征，用于人脸识别、物体检测。

文本特征

将文本转化为数值特征。比如用“词袋模型”将文本转化为“单词出现次数的向量”。

特征学习

让机器自动地学习出有效的特征。

北京朝阳AI社区

更多推荐

无人机追逃博弈论文读取有感

多智能体追逃博弈算法综述与未来方向本文系统梳理了多智能体追逃博弈的算法框架，分为全局视野和局部视野两大类，并针对无人机局部观测场景提出推荐方案。全局视野算法（如MADDPG、QMIX）依赖完整环境信息，虽在协同控制中表现良好，但难以适应真实场景中的部分观测问题，存在过拟合和泛化性差的缺陷。局部视野算法（如MAPPO、MAAC）更适合无人机追逃场景，通过注意力机制、图神经网络或课程学习实现局部