
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1.线性回归1.1 定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归通用公式:h(w)=w1x1+w2x2+⋯+wnxn+b=WTX+bh(w)=w_1x_1+w_2x_2+\cdots+w_nx_n+b=W^TX+b
信息熵信息理论从信息的完整性描述:当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。从信息的有序性描述:当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。“信息熵” (information entropy)是度量样本集合纯度最常用的一种指标。信息熵理解信息熵是一个变量包含信息多少的度量方式信息熵的值越大,则认为该变量包含的信息量就大信息熵越大,表示包含
1.Boosting介绍Boosting体现了提升的思想:每一个训练器重点关注前一个训练器不足的地方进行训练通过加权投票的方法得出最后的预测结果2.Boosting和Bagging对比区别一:数据方面Boosting:使用的是全部训练样本,根据前一个模型的学习结果调整数据的重要性Bagging:对数据进行采样训练区别二:集成策略Boosting:对所有的弱学习器预测的结果进行平权投票,票数较多的最
1 基本结构
1 SVM基本介绍1.1 SVM算法定义 SVM全称是supported vector machine(支持向量机),即寻找到一个超平面使样本分成两类,并且间隔最大。 SVM能够执行线性和非线性分类,回归,甚至是异常值监测任务。特别适用于中小型复杂数据集的分类。1.2 SVM和逻辑回归的区别逻辑回归和SVM都是寻找一条分类直线,目标是把这两个类别分开逻辑回归的最终判断标准是:准确率,而SVM最
信息熵信息理论从信息的完整性描述:当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。从信息的有序性描述:当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。“信息熵” (information entropy)是度量样本集合纯度最常用的一种指标。信息熵理解信息熵是一个变量包含信息多少的度量方式信息熵的值越大,则认为该变量包含的信息量就大信息熵越大,表示包含
1.Boosting介绍Boosting体现了提升的思想:每一个训练器重点关注前一个训练器不足的地方进行训练通过加权投票的方法得出最后的预测结果2.Boosting和Bagging对比区别一:数据方面Boosting:使用的是全部训练样本,根据前一个模型的学习结果调整数据的重要性Bagging:对数据进行采样训练区别二:集成策略Boosting:对所有的弱学习器预测的结果进行平权投票,票数较多的最
1. 聚类概念 一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。 在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。 聚类算法和分类算法最大的区别是:聚类是无监督学习算法,而分类算法是监督学习算法。2. 聚类算法的实现流程随机选择 K 个样本点作为初始聚类中心计算每个样本到 K 个中
1.XGBoost算法原理 XGBoost(Extreme Gradient Boosting)全名极端梯度提升树,在绝大多数回归和分类问题上表现突出,因此,在集成算法中,XGBoost是公认的王牌算法。最优模型构建方法 通过之前的算法学习,我们知道:一般构建最优算法模型,其实就是最小化训练数据的损失函数,我们用字母L表示损失,如下式:minf∈F 1N∑i
1 概率样本数职业体型是否喜欢1程序员超重不喜欢2产品匀称喜欢3程序员匀称喜欢4程序员超重喜欢5美工匀称不喜欢6美工超重不喜欢7产品匀称喜欢1.1 条件概率 表示事件A在另外一个事件B已经发生条件下的发生概率,即P(A|B)在女神喜欢的条件下,职业是程序员的概率是:女神喜欢条件下,有2,3,4,7共4个样本4个样本中,有程序员3,4共2个样本则P(程序员|喜欢) = 2/4=0.5







