
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
处理文本数据我们讨论过表示数据属性的两种类型的特征:连续特征与分类特征,前者用于描述数量,后者是固定列表中的元素。在许多应用中还可以见到第三种类型的特征:文本。举个例子,如果我们想要判断一封电子邮件是合法邮件还是垃圾邮件,那么邮件内容一定会包含对这个分类任务非常重要的信息。或者,我们可能想要了解一位政治家对移民 问题的看法。这个人的演讲或推文可能会提供有用的信息。在客户服务中,我们通常想知 道一条
频率域图像增强空间域和频率域为我们提供了不同的视角。在空间域中,函数的自变量 (x,y) 被视为二维空间中的一点,数字图像 f(x,y) 即为一个定义在二维空间中的矩形区域上的离散函数;换一个角度,如果将 f(x,y) 视为幅值变化的二维信号,则可以通过某些变换手段(如傅里叶变换、离散余弦变换、沃尔什变换和小波变换等)在频率域下对它进行分析。1、频率域滤波——与空间域滤波殊途同归在很多情况下,频率
聚类我们前面说过,聚类(clustering)是将数据集划分成组的任务,这些组叫作簇(cluster)。其目标是划分数据,使得一个簇内的数据点非常相似且不同簇内的数据点非常不同。与分类算法类似,聚类算法为每个数据点分配(或预测)一个数字,表示这个点属于哪个簇。1、K 均值聚类k 均值聚类是最简单也最常用的聚类算法之一。它试图找到代表数据特定区域的簇中心(cluster center)。算法交替执行
神经网络上一章我们学习了感知机。关于感知机,既有好消息,也有坏消息。好消息是,即便对于复杂的函数,感知机也隐含着能够表示它的可能性。上一章已经介绍过,即便是计算机进行的复杂处理,感知机(理论上)也可以将其表示出来。坏消息是,设定权重的工作,即确定合适的、能符合预期的输入与输出的权重,现在还是由人工进行的。上一章中,我们结合与门、或门的真值表人工决定了合适的权重。神经网络的出现就是为了解决刚才的坏消
处理文本数据我们讨论过表示数据属性的两种类型的特征:连续特征与分类特征,前者用于描述数量,后者是固定列表中的元素。在许多应用中还可以见到第三种类型的特征:文本。举个例子,如果我们想要判断一封电子邮件是合法邮件还是垃圾邮件,那么邮件内容一定会包含对这个分类任务非常重要的信息。或者,我们可能想要了解一位政治家对移民 问题的看法。这个人的演讲或推文可能会提供有用的信息。在客户服务中,我们通常想知 道一条
数据表示与特征工程到目前为止,我们一直假设数据是由浮点数组成的二维数组,其中每一列是描述点的连续特征(continuous feature)。对于许多应用而言,数据的收集方式并不是这样的。一种特别常见的特征类型就是分类特征(categorical feature),也叫离散特征(discrete feature)。这种特征通常并不是数值。分类特征与连续特征之间的区别类似于分类和回归之间的区别,只是
神经网络(深度学习)虽然深度学习在许多特定的使用场景应用中都有巨大的潜力,但深度学习算法往往经过精确调整,只适用于特定的使用场景。这里讨论一些相对简单的方法,即用于分类和回归的多层感知机(MLP),它可以作为研究更复杂的深度学习方法的起点。MLP 也被称为(普通)前缀神经网络,有时也简称为神经网络。1、神经网络MLP 可以被视为广义的线性模型,执行多层处理后得到结论。还记得线性回归的预测公式为:y
朴素贝叶斯分类器朴素贝叶斯分类器的训练速度比线性模型更快。这种高效率所付出的代价是,朴素贝叶斯模型的泛化能力要比线性分类器(如 LogisticRegression 和 LinearSVC)稍差。朴素贝叶斯模型如此高效的原因在于,它通过单独查看每个特征来学习参数,并从每个特征中收集简单的类别统计数据。scikit-learn 中实现了三种朴素贝叶斯分类器:GaussianNB、BernoulliN
神经网络(深度学习)虽然深度学习在许多特定的使用场景应用中都有巨大的潜力,但深度学习算法往往经过精确调整,只适用于特定的使用场景。这里讨论一些相对简单的方法,即用于分类和回归的多层感知机(MLP),它可以作为研究更复杂的深度学习方法的起点。MLP 也被称为(普通)前缀神经网络,有时也简称为神经网络。1、神经网络MLP 可以被视为广义的线性模型,执行多层处理后得到结论。还记得线性回归的预测公式为:y







