logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习算法-朴素贝叶斯Python实现

引文:前面提到的K最近邻算法和决策树算法,数据实例最终被明确的划分到某个分类中,下面介绍一种不能完全确定数据实例应该划分到哪个类别,或者说只能给数据实例属于给定分类的概率。基于贝叶斯决策理论的分类方法之朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感适用数据类型:标称型数据。朴素贝叶斯的一般过程收集数据:可以使用任何方式准备数据:需要数

#python
机器学习算法-决策树理论

用较少的东西,同样可以做好的事情。越是小的决策树,越优于大的决策树。引文数据分类是一个两阶段过程,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类标号)。决策树分类算法是监督学习的一种,即Supervised learning。分类过程的第一阶段也可以看做学习一个映射或函数y=f(x),它可以预测给定元组X的类标号y。在第二阶段,使用模型进行分类。首先评估分类器的预测准确率。这个

#决策树
生物信息-related

生物信息学的研究重点主要体现在基因组学(genomics)和蛋白质组学(proteomics)两个方面,intron 内含子,exon外显子1.DNA的双螺旋结构双螺旋结构是基于对碱基配对规律的认识:氢键结合只发生于互补的碱基A与T、G与C之间。双螺旋分子两条链的严格互补性,是指一条链的核苷酸顺序,无例外地取决于另一条链。每一条DNA链都能作为模板,以合成一条准确地限定核苷酸顺序的新链,也是根据碱

机器学习算法-Adaboost

本章内容组合相似的分类器来提高分类性能应用AdaBoost算法处理非均衡分类问题主题:利用AdaBoost元算法提高分类性能1.基于数据集多重抽样的分类器-AdaBoost优点泛化错误率低,易编码,可以应用在大部分分类器上,无需参数调整缺点对离群点敏感适合数据类型数值型和标称型数据bagging:基于数据随机重抽样的分类器构建方法自举汇聚法(b

#机器学习#boosting
机器学习个人资料整理

学习机器学习也有很长一段时间了,前段时间在论文中应用了GTB(Gradient Tree Boosting)算法。在我的数据集上GTB的性能比随机森林要稍微强一点,整个实验做完之后,有许多东西都来不及及时整理,很多都遗忘了。打算接下来的时间里,好好整理下自己的学习资料,这份资料绝对不是一时半会就整理得完的,先开个头吧,以后会间断性更新该博文的。下面来做个资料整理吧。书籍推荐机器学习的书籍很多,下面

#机器学习#算法
机器学习算法-梯度树提升GTB(GBRT)

Introduction决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不太理想。模型组合(比如说有Boosting,Bagging等)与决策树相关的算法比较多,如randomForest、A

#机器学习#算法
机器学习-CrossValidation交叉验证Python实现

版权声明:本文为原创文章,转载请注明来源。1.原理1.1 概念交叉验证(Cross-validation)主要用于模型训练或建模应用中,如分类预测、PCR、PLS回归建模等。在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测,并求这小部分样本的预测误差或者预测精度,同时记录它们的加和平均值。这个过程迭代K次,即K折交叉。其中,把每个样本的预测误差平方加

#机器学习
机器学习scikit-learn入门教程

原文链接:http://scikit-learn.github.io/dev/tutorial/basic/tutorial.html章节内容在这个章节中,我们主要介绍关于scikit-learn机器学习词库,并且将给出一个学习样例。机器学习:问题设置通常,一个学习问题是通过一系列的n个样本数据来学习然后尝试预测未知数据的属性。如果每一个样本超过一个单一的数值,例如多维输入(也叫做多维数据),那么

#sklearn#机器学习
机器学习-牛顿方法&指数分布族&GLM

回头再温习一下Andrew Ng的机器学习视频课,顺便把没写完的笔记写完。本节内容牛顿方法指数分布族广义线性模型之前学习了梯度下降方法,关于梯度下降(gradient descent),这里简单的回顾下【参考感知机学习部分提到的梯度下降(gradient descent)】。在最小化损失函数时,采用的就是梯度下降的方法逐步逼近最优解,规则为θ:=θ−η∇θℓ(θ)\theta := \the

#机器学习
机器学习—过拟合overfitting

今天在知乎上看到一个问题:人脑有海量的神经元(参数),为什么没有过拟合?面对各个网友的回答,突然发现自己对于过拟合的概念似乎理解的不是很透彻,或者说之前就没有完全理解透。其中有个人这么说“样本少feature多才overfitting”也有人提到看红框标注部分,也就是说样本多就不会发生过拟合么。先不管知乎这个问题了,为了搞清过拟合的概念,再次跑到wikipedia去搜寻答案。下面是wikipedi

#机器学习
    共 41 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择