机器学习的基本概念
机器学习 (Machine Learning, ML) 是人工智能(AI)的一个重要分支,指从有限的样本中通过算法总结出一般性的规律,并可以应用到新的未知的数据上。举个生活中的例子假设你要写一个「垃圾邮件识别」程序:包含“中奖”字样 → 垃圾邮件来自陌生地址 → 垃圾邮件有超多链接 → 垃圾邮件然后把这些规则一个个硬编码在程序里。一堆标注为“垃圾邮件”的邮件一堆标注为“正常邮件”的邮件机器会根据这
1. 定义
机器学习 (Machine Learning, ML) 是人工智能(AI)的一个重要分支,指从有限的样本中通过算法总结出一般性的规律,并可以应用到新的未知的数据上。
举个生活中的例子
假设你要写一个「垃圾邮件识别」程序:
-
传统编程方法: 你需要手动写很多规则,比如:
- 包含“中奖”字样 → 垃圾邮件
- 来自陌生地址 → 垃圾邮件
- 有超多链接 → 垃圾邮件
然后把这些规则一个个硬编码在程序里。
-
机器学习方法: 你不写这些规则,而是给程序大量的例子:
- 一堆标注为“垃圾邮件”的邮件
- 一堆标注为“正常邮件”的邮件
机器会根据这些数据,自动学出一套识别规律(模型)。之后遇到新邮件,它就能自己判断是不是垃圾邮件了。
这就是机器学习:从数据中学习模型,而不是靠人工设定规则。
2. 机器学习的三个基本要素
2.1. 模型
从数据中识别的规则,是输入特征到输出结果的一个映射。
分类:
-
线性模型:
输入特征与输出之间是线性关系。比如买苹果,一斤5元,2斤10元,3斤15元,花的钱和买的斤数是成固定比例的。
-
非线性模型
输入特征与输出之间是非线性关系。比如种庄稼,前期施肥,产量会快速增长,但施肥过多后,产量可能不涨甚至下降,结果和数据的关系是“曲线”。
2.2. 学习准则
-
损失函数
损失函数是用来量化模型预测和真实标签之间的差异。
-
风险最小化准则
核心目标是通过调整模型参数,让整个训练数据集的“平均损失”降到最低,确保模型整体预测更准确。
2.3 优化算法
优化算法是模型实现风险最小化的工具,通过特点策略调整参数,让损失值逐步降低。
-
参数和超参数
-
参数: 模型在训练过程中,从数据里自主学习、自动调整的“内部变量”,是模型用来拟合数据规则的核心。
-
超参数: 在模拟训练开始钱,由人工根据经验或实验设定的“外部配置“,决定模型的训练方式和结构。比如梯度下降算法中的步长、神经网络的层数等。
-
-
核心优化算法: 梯度下降
3. 机器学习的类型
- 监督学习
训练数据有“输入特征+对应真实标签”,模型学习“特征->标签”的映射。
- 无监督学习
训练数据只有“输入特征”,无真实标签,模型自主挖掘数据的内在结构。
- 强化学习
模型通过“与环境交互”学习:做出动作后,环境反馈“奖励”或“惩罚”,模型以“累计奖励最大”为目标调整策略。
4. 数据的特征表示
将原始数据转化为模型能理解的数值形式的过程。
- 图像特征
将图像中的像素信息转化为数值特征。比如提取图像边缘、纹理、形状等特征,用于人脸识别、物体检测。
- 文本特征
将文本转化为数值特征。比如用“词袋模型”将文本转化为“单词出现次数的向量”。
- 特征学习
让机器自动地学习出有效的特征。
更多推荐
所有评论(0)