
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
设特征空间χ\chiχ是nnn维实数向量空间RnR^nRn,xi,xj∈χ{x_i},{x_j} \in \chixi,xj∈χ,xi=(xi(1),xi(2),⋯ ,xi(n))Tx _ { i } = \left( x _ { i } ^ { ( 1 ) } , x _ { i } ^ { ( 2 ) } , \cdo
由于之前这篇博客用富文本编辑器写的,公式老是出问题,现在用markdown重新编辑出来。1. Stacking定义 Stacking并不是简单地对个体学习器的结果做简单逻辑处理,而是先从初始数据集训练出初级学习器,将初级学习器的输出当成特征,初始样本的标记仍被当作标记,由此生成一个新数据集用于训练学习器。Stacking结构图2. Stacking原理 假设我们有两个初级学...
1. 基本术语机器学习:是基于数据建立模型并运用模型对数据进行预测和分析的一门学科。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析和预测中。特征/属性:反映事件或对象在某方面的表现或性质的事项。样本:关于一个事件或对象的描述。数据集:多条样本记录的集合。输入空间/输出空间:输入和输出所有可能取值的集合。学习/训练:从数据中学得模型的过程...
1.Bagging原理在介绍Bagging之前,我们首先介绍下自助采样法(Bootstrap sampling)。自助采样法的原理如下:对给定个样本的数据集,进行次随机有放回采样,得到含个样本的采样集,初始训练集中约有63.2%的样本出现在采样集中。Bagging(Bootstrap aggregating)正是直接基于自助采样法采样出个含个样本的采样集,然后基于每个采样集分别训练出一...
1. 前言 从给定的特征集合中选择出相关特征子集的过程,称为“特征选择”。特征选择是一个重要的数据预处理过程,进行特征选择的原因如下:减少特征数量、降维,使模型泛化能力更强,减少过拟合;去除不相关特征,降低学习难度。 常见的特征选择方法大致可以分为三类:过滤式、包裹式和嵌入式。2. 过滤式选择 过滤式方法先对数据集进行特征选择,然后再训练学习器。特征选择过程与后续学习...
机器学习可根据如下规则进行分类:是否在人类监督下进行训练(监督学习/非监督学习/半监督学习/强化学习);是否可以动态渐进学习(批量学习/在线学习);是否只是通过简单地比较新数据点和已知数据点,还是在训练数据中进行模式识别,以建立一个预测模型。1. 监督/非监督/半监督/强化学习 机器学习可以根据训练时监督的量和类型进行分类,主要有四类:监督学习、非监督学习、半监督学习、强化学习。...
1. 密度聚类 密度聚类假设聚类结构能够通过样本分布的紧密程度确定,其主要思想是:通过样本之间是否紧密相连来判断样本点是否属于同一个簇。 这类算法能克服基于距离的算法(如K-Means)只能发现凸聚类的缺点,可以发现任意形状的聚类,且对噪声数据不敏感,但计算密度大暖的计算复杂度大,需要建立空间索引来降低计算量。2. DBSCAN算法 DBSCAN(Density-Based Spat...
该文已经收录到专题机器学习进阶之路当中,欢迎大家关注。1.过拟合当样本特征很多,样本数相对较少时,模型容易陷入过拟合。为了缓解过拟合问题,有两种方法:方法一:减少特征数量(人工选择重要特征来保留,会丢弃部分信息)。方法二:正则化(减少特征参数的数量级)。2.正则化(Regularization)正则化是结构风险(损失函数+正则化项)最小化策略的体...
1. 过拟合 过拟合是指学习模型对训练样本预测得很好,但对新样本预测很差的现象。这通常是由于学习模型能力过于强大,以至于把训练样本自身的一些特点当做了一般性质。  过拟合是无法彻底避免的,只能缓解。模型选择就是要旨在避免过拟合并提高模型的预测能力。
现将自己机器学习方面的学习笔记整理如下,后续还会继续更新:机器学习基本概念监督学习、非监督学习、批量学习、在线学习、基于实例学习、基于模型学习经验风险最小化与结构风险最小化模型评估与选择(留出法、交叉验证法、查全率、查准率、偏差、方差)线性回归原理推导与算法描述最优化方法:梯度下降法一文读懂正则化与LASSO回归,Ridge回归逻辑斯蒂回归原理推导与求解多项逻辑斯蒂回归/sof...








