
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
对于机器学习而言,如果你已经大致了解了相关算法的原理、理论推导,你也不是大家口中刚入门的小白了。接下来你需要将自己所学的知识利用起来,最好的方式应该就是独立完成几个项目实战,项目难度入门级即可,因为重点是帮助你了解一个项目的流程,比如缺失值和异常值的处理、特征降维、变量转换等等。Kaggle毋庸置疑是一个很好的平台,里面的泰坦尼克号、房屋价格预测、手写数字都是非常非常经典的入门实战项目,如果你独立
前文回顾上一篇文章介绍了朴素贝叶斯算法的相关知识,包括以下几方面:朴素贝叶斯算法的基本原理公式推导贝叶斯准则(条件概率公式)构建训练、测试简易文本分类算法拉普拉斯平滑修正其中公式推导这一部分较为重要,利用条件概率解决问题也是朴素贝叶斯的基本思想,所以理解贝叶斯准则如何得到,以及如何应用十分重要,也是后期构建算法的基础。现实生活中朴素贝叶斯算法应用广泛,如文本分类,垃圾邮件的分类,...
背景最近上映了一部国产青春剧——《少年的你》,票房已经破了14亿,从票房上看,这部电影在大陆制作的青春剧中比较成功,演员:易烊千玺+周冬雨,当然会引起一些流量效应,但是许多演员对这部电影的剧情、演员的演技评价颇好,包括自己的姐姐也非常喜欢;同时它也陷入了抄袭东野圭吾的《白夜行》和《嫌疑人X的献身》的热议,引起许多原著粉丝的不满。下面就利用逻辑回归(LogisticRegression)对《少年的.
非线性支持向量机对于线性分类问题,线性分类支持向量机是一种非常有效的方法。但是有的分类问题是非线性的,这时就可以使用非线性支持向量机对分类问题求解,其主要的特点是利用核技巧(kernel trick),下面通过一个通俗的小栗子介绍核技巧。核方法与核技巧假设有一个二维平面上有4个点,两个红色点、两个绿色点,这4个点位于一条直线上,如下:对于这个问题,我们是无法利用一条直线准确将红色点和绿色...
现在验证码的种类真的是越来越多,短信验证码、语音验证码、图片验证码、滑块验证码 … 我们在 PC 的网页端或者手机上的 app 进行登录或者注册时,应该总会遇见图片验证码,比如下面这类:上面这些图片验证码都是通过Python制作出来的,方法有很多,但主要都是依赖Python强大的第三方库,下面就介绍一下制作图片验证码的三种方法,难度由高到低。Pillow库Pillow是一个非常强大的图片处理模块,
数据背景本文数据取至于UCI——欧文大学机器学习数据库,是一个免费且十分好用的数据库,在学习机器学习时会接触一个基础的数据集——鸢尾花,就是欧文大学提供的,本文就是在一个名叫葡萄酒品质的数据集的基础上进行建模附上数据链接:数据集该数据集一个优点就是可以适用于分类和回归两种算法进行不同的建模,但是目的都为了预测葡萄酒的品质本文利用KNN、决策树、随机森林对数据进行建模数据处理库与工具i...
线性支持向量机上一篇文章对支持向量机的间隔、对偶和KKT条件做了详细推导,但前文的基础是原始问题为线性可分问题,所以对线性不可分训练数据是不适用的,这时需要引入一个新定义:软间隔。假如训练数据中有一些特异点,也就是分类会出错的样本点,将这些特异点除去后,剩下的大部分样本点组成的集合是线性可分的,训练数据线性可分时所对应的间隔也被称为硬间隔。线性不可分也就意味着某些样本点不能满足函数间隔大于等...
SVM概述支持向量机(SVM)是一种有监督的分类算法,并且它绝大部分处理的也是二分类问题,先通过一系列图片了解几个关于SVM的概念。上图中有橙色点和蓝色点分别代表两类标签,如果想要将其分类,需要怎么做呢?可能有的伙伴会想到上一篇文章讲到的逻辑回归拟合决策边界,这肯定是一种不错的方法,本文所讲的SVM也是可以解决这种分类问题的;既然都是分类算法,所以通过一个例子可以比对出二者的相同点和不同点。...
对于机器学习而言,如果你已经大致了解了相关算法的原理、理论推导,你也不是大家口中刚入门的小白了。接下来你需要将自己所学的知识利用起来,最好的方式应该就是独立完成几个项目实战,项目难度入门级即可,因为重点是帮助你了解一个项目的流程,比如缺失值和异常值的处理、特征降维、变量转换等等。Kaggle毋庸置疑是一个很好的平台,里面的泰坦尼克号、房屋价格预测、手写数字都是非常非常经典的入门实战项目,如果你独立
简介手写数字识别是KNN算法一个特别经典的实例,其数据源获取方式有两种,一种是来自MNIST数据集,另一种是从UCI欧文大学机器学习存储库中下载,本文基于后者讲解该例。基本思想就是利用KNN算法计算出如下图一个32x32的二进制矩阵代表的数字是出于0-9之间哪一个数字。这份数据集呢...







