历年考点
201520162017201820192020
偏差方差分解
EM 求解 GMMEM 求解 GMMEM 算法求解
GMM &
K-means 异同
聚类算法选择聚类选择
势函数势函数
线性判别:系数Fisher 原理
逻辑回归
Fisher 原理
LR 原理
Fisher 和 Bayes 的等价
AdaBoostAdaBoost errAdaBoostAdaBoost
K-L 变换K-L 变换K-L 变换K-L 变换
感知机感知机求解感知机求解
SVM 对偶求解SVM 调参SVM 调参SVM 核函数SVM 求解SVM 对偶求解
贝叶斯决策
最小错误率
最小风险
贝叶斯:正态
最小错误率
最小风险
朴素贝叶斯最小错误率
最小风险
贝叶斯判别最小风险
HMM 观测序列HMM 观测序列HMM 观测序列HMM 观测序列
PGM:独立性PGM:独立性PGM:独立性
No Free
Occam
MAP
PCA 两种角度
CNN & Gabor
过拟合 &
欠拟合
半监督假设
CNN & Gabor
MAP 和加正则等价
图片分类网络设计
无标签数据的作用
题型

2019 年以前都是简答题或计算题。2019 年、2020 年开始有选择题(单选)。

选择题练习

考试单选。

1)朴素贝叶斯是一个()。A,D

  • 低方差模型
  • 高方差模型
  • 判别式模型
  • 生成式模型

注:

  • 朴素贝叶斯是一个高偏差、低方差的简单模型:不确定性小、准确性也小。
  • 常见的生成模型:朴素贝叶斯、HMM、高斯混合、LDA、RBM 等
  • 常见判别模型:线性回归、对数回归、线性判别分析、SVM、boosting、CRFs、神经网络等。

2)对决策树模型,关于其超参数“树的最大深度”,下面说法哪些正确? A,C

  • 如果验证准确率相同,值越低越好;
  • 如果验证准确率相同,值越高越好;
  • 值增加可能会导致过拟合;
  • 值增加可能会导致欠拟合。

3)在 L1 正则的线性回归模理中,如果正则参数很大,会发生什么?A

  • 一些系数将变为零
  • 一些系数将接近零,但不是绝对零

在逻辑回归中,如果正则项取 L1 正则,会产生什么效果?A

  • 可以做特征选择,一定程度上防止过拟合
  • 能加快计算速度
  • 在训练数据上获得更准确的结果

注:

  • 做特征选择可以使用 L1,L2 范数,具体如下: L1 范数具有系数解的特性,但是要注意的是,L1 没有选到的特征不代表不重要,原因是两个高相关性的特征可能只保留一个。如果需要确定哪个特征重要,再通过交叉验证。
  • 为什么 L1,L2 范数可以防止过拟合呢,在代价函数后面加上正则项,L1 即是 Lasso 回归,L2 是岭回归 但是它为什么能防止过拟合呢? 奥卡姆剃刀原理:能很好的拟合数据且模型简单,模型参数在更新时,正则项可使参数的绝对值趋于0,使得部分参数为0,降低了模型的复杂度(模型的复杂度由参数决定),从而防止了过拟合,提高模型的泛化能力。

4)对多项式回归而言,哪一项对过拟合和欠拟合影响最大?A

  • 多项式的阶数
  • 是香通过矩阵求逆/梯度下降学习权重
  • 高斯噪声方差
  • 每一次训练的输入个数固定

5)梯度下降训练逻辑回归使用梯度下降训练 Logistic 回归分类器后,您发现它对训练集欠拟合,在训练集或验证集上没有达到所需的性能。以下哪些项可能是有希望采取的步骤。C,D

  • 采用其他优化算法,因为梯度下降得到的可能是局部最小值
  • 减少训练样本
  • 增加多项式特征值
  • 改用较多隐含结点的神经网络模型

6)在 Logistic 回归中,关于一对其他(One vs Rest)方法,以下哪个选项是正确?A,B

  • 我们需要在 C 类分类问题中拟合 C 个模型
  • 我们需要拟合 C-1 个模型来分类 C 类
  • 我们只需要拟合 1 个模型来分类 C 类
  • 这些都不是

7)SVM的有效性取决于:D

  • 核函数选择
  • 核函数的参数
  • 软边距参数C
  • 以上所有

9)SVM假设您在SVM中使用具有高 γ \gamma γ(核函数宽度的倒数)值的 RBF 核函数。这意味着什么?B

  • 模型将考虑离超平面很远的点;
  • 模型将只考虑离超平面很近的点;
  • 模型不受点到超平面距离的影响
  • 以上都不对

10)采用一个线性 SVM 模型来处理某个任务,并且知道这个 SVM 模型是欠拟合的。下列哪些方法可以提升该模型性能?

  • 减少训练样本
  • 增加训练样本
  • 增加特征
  • 减少特征
  • 增加参数 C
  • 减少参数 C

如果模型的偏差较高,我们如何降低偏差?B

  • 在特征空间中减少特征
  • 在特征空间中增加特征
  • 增加数据点

11)基于二次准则函数的 H-K 算法较之于感知器算法的优点是哪个?B

  • 计算量小
  • 可以判别问题是否线性可分
  • 其解完全适用于非线性可分的情况

注:其实 HK 算法思想很朴实,就是在最小均方误差准则下求得权矢量。它相对于感知器算法的优点在于,其适用于线性可分和非线性可分得情况,对于线性可分的情况,给出最优权矢量,对于非线性可分得情况,能够判别出来,以退出迭代过程。

假设采用正态分布模式的贝叶斯分类器完成一个两类分类任务,则下列说法正确的是哪个。

  • 假设两类的协方差矩阵均为对角矩阵,则判别界面为超平面。
  • 假设两类的协方差矩阵相等,则判别界面为超平面。
  • 不管两类的协方差矩阵为何种形式,判别界面均为超平面。

注:协方差矩阵不相等时为超曲面。

下列方法中,哪种方法不能用于选择 PCA 降维(KL 变换)中主成分的数目 K?A

  • 训练集上残差平方和随 K 发生剧烈变化的地方(肘部法)
  • 通过监督学习中验证集上的性能选择 K
  • 训练集上残差平方和最小的 K

注:肘部法用于确定 K-means 的 K。

KL散度是根据什么构造的可分性判据 ( C )

  • 最小损失准则
  • 后验概率
  • 类概率密度
  • 几何距离

二项式分布的共轭分布是 ©

A. 正态分布

B. Dirichlet 分布

C. Beta 分布

D. 指数分布

多项式分布的共轭分布是 (B)

A. 正态分布

B. Dirichlet 分布

C. Beta 分布

D. 指数分布

支持向量机的对偶问题是 ( C)

A. 线性优化问题

B. 二次优化

C. 凸二次优化

D. 有约束的线性优化

下面属于 Bagging 方法的特点是 (A)

A. 构造训练集时采用 Bootstraping 的方式

B. 每一轮训练时样本权重不同

C. 分类器必须按顺序训练

D. 预测结果时,分类器的比重不同

下面属于 Boosting 方法的特点是 (D)

A. 构造训练集时采用 Bootstraping 的方式

B. 每一轮训练时样本权重相同

C. 分类器可以并行训练

D. 预测结果时,分类器的比重不同

随机森林方法属于 (B)

A. 梯度下降优化

B. Bagging 方法

C. Boosting 方法

D. 线性分类

假定有一个数据集 S,但该数据集有很多误差,采用软间隔 SVM 训练,阈值
为 C,如果 C 的值很小,以下那种说法正确 (A)

A. 会发生误分类现象

B. 数据将被正确分类

C. 不确定

D. 以上都不对

软间隔 SVM 的阈值趋于无穷,下面哪种说法正确 (A)

A. 只要最佳分类超平面存在,它就能将所有数据全部正确分类

B. 软间隔 SVM 分类器将正确分类数据

C. 会发生误分类现象

D. 以上都不对

一般,K-NN 最近邻方法在什么情况下效果好 (B)

A. 样本较多但典型性不好

B. 样本较少但典型性较好

C. 样本呈团状分布

D. 样本呈链状分布

注:最近邻属于分类算法,样本多而且典型性不好容易造成分类错误(尤其是
在分类边界上的样本点)。样本分布对聚类算法的影响较大。

最小二乘回归方法的等效回归方法 (D)

A. Logistic 回归

B. 多项式回归

C. 非线性基函数回归

D. 线性均值和正态误差的最大似然回归

在有限支撑集上,下面分布的熵最大 (D)

A. 几何分布

B. 指数分布

C.高斯分布

D. 均匀分布

已知均值和方差,下面哪种分布的熵最大 ©

A. 几何分布

B. 指数分布

C.高斯分布

D. 均匀分布

假如使用一个较复杂的回归模型来拟合样本数据,使用岭回归,调试正则化参数 λ,来降低模型复杂度。若 λ 较大时,关于偏差(bias)和方差(variance),下列说法正确的是(C)

A.若 λ 较大时,偏差减小,方差减小

B.若 λ 较大时,偏差减小,方差增大

C.若 λ 较大时,偏差增大,方差减小

D.若 λ 较大时,偏差增大,方差增大

以下说法正确的是(C)

A. Boosting 和 Bagging 都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重

B. 梯度下降有时会陷于局部极小值,但 EM 算法不会

C. 除了 EM 算法,梯度下降也可求混合高斯模型的参数

增加以下哪些超参数可能导致随机森林模型过拟合数据(B)

(1). 决策树的数量;(2). 决策树的深度; (3). 学习率。

A. (1)

B. (2)

C. (3)

D. (2)(3)

在线性回归中使用正则项,你发现解的不少 coefficient 都是 0,则这个正则项可能是(A)

(1). L0-norm;(2). L1-norm;(3). L2-norm。

A. (1)(2)

B. (2)(3)

C. (2)

D. (3)

Bootstrap 数据是什么意思(C)

A. 有放回地从总共 M 个特征中抽样 m 个特征

B. 无放回地从总共 M 个特征中抽样 m 个特征

C. 有放回地从总共 N 个样本中抽样 n 个样本

D. 无放回地从总共 N 个样本中抽样 n 个样本

特征选择是重要的特征降维手段之一,以下描述中属于特征选择情况是 (ABC)

A. 提取向量偶数位特征,重新表示向量

B. 前向序贯搜索子集,进行子集评价,选择最优子集

C. 采用可分性度量,度量每个特征,进行选择

D. 主成分分析降维

下面关于特征选择和特征提取的描述正确的是 (BC)

A. Relief 算法属于特征提取方法

B. 特征选择的目标是从原始的 d 个特征中选择 k 个特征

C. 特征提取的目标是根据原始的 d 个特征的组合形成 k 个新的特征

D.PCA 属于特征选择方法

以下模型中属于贝叶斯网络的有 (BD)

A. 马尔可夫随机场

B. 隐马尔可夫模型

C. 条件随机场

D. 朴素贝叶斯分类器

影响 K-Means 聚类算法结果的主要因素有 (BC)

A. 样本顺序

B. 相似性度量

C. 初始聚类中心

D. 样本类别

下面关于集成学习的描述,正确的是 (AD)

A. Bagging 方法可以并行训练

B. Bagging 方法基学习器的比重不同

C. Boosting 方法可以并行训练

D. Boosting 方法 基学习器的比重不同

真题链接(15 - 19)

https://download.csdn.net/download/weixin_37641832/14019821

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐