
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在实际的聚类应用中,通常使用k-均值和k-中心化算法来进行聚类分析,这两种算法都需要输入簇数,为了保证聚类的质量,应该首先确定最佳的簇数,并使用轮廓系数来评估聚类的结果。一,k-均值法确定最佳的簇数通常情况下,使用肘方法(elbow)以确定聚类的最佳的簇数,肘方法之所以是有效的,是基于以下观察:增加簇数有助于降低每个簇的簇内方差之和,给定k>0,计算簇内方差和var(k),...
spaCy处理文本的过程是模块化的,当调用nlp处理文本时,spaCy首先将文本标记化以生成Doc对象,然后,依次在几个不同的组件中处理Doc,这也称为处理管道。语言模型默认的处理管道依次是:tagger、parser、ner等,每个管道组件返回已处理的Doc,然后将其传递给下一个组件。一,加载语言模型spaCy使用的语言模型是预先训练的统计模型,能够预测语言特征,对于英语,...
将Excel作为数据源,将数据导入数据库,是SSIS的一个简单的应用,下图是示例Excel,数据列是code和name第一部分,Excel中的数据类型是数值类型1,使用SSDT创建一个package,创建Excel data source component,SSDT会在Connection Managers中创建一个Excel的connection由于示例Excel的首...
数据质量通常是指数据值的质量,包括准确性、完整性和一致性。数据的准确性是指数据不包含错误或异常值、完整性是指数据不包含缺失值、一致性是数据在各个数据源中都是相同的。广义的数据质量还包括数据整体的有效性,例如,数据整体是否是可信的、数据的取样是否合理等。本文的数据质量分析,是指对原始数据值的质量进行分析,以检查数据的质量。没有可信的数据,数据分析将是空中楼阁,因此,数据分析的前提就是要保证...
MongoDB 是一款非常热门的NoSQL,面向文档的数据库管理系统,官方下载地址是:MongoDB,我选择的是 Enterprise Server (MongoDB 3.2.9)版本,安装在WindowsServer 2012环境中。MongoDB使用BSON对象来存储,与JSON格式类型的键值对(key/value)类似,MongoDB数据库和关系型DB的存储模型对应关系:...
令狐冲在华山学艺时,虽然勤学苦练,但是终不得法,在机缘巧合之下,得到风清扬老前辈的真传,练成独孤九剑之后,才名震江湖。虽然笑傲江湖的故事情节是虚构的,但从令狐冲蜕变的过程可以看出,练武需要秘籍。数据分析也有一本传世秘籍,只有六字,这就是《数据化管理》中提到的六字箴言、数据分析的三板斧:对比、细分、溯源,具体来说:(1)对比就是成对的比较,分为横向对比和纵向对比,横比是指和“他人”...
K最近邻(kNN,k-NearestNeighbor)算法是一种监督式的分类方法,但是,它并不存在单独的训练过程,在分类方法中属于惰性学习法,也就是说,当给定一个训练数据集时,惰性学习法简单地存储或稍加处理,并一直等待,直到给定一个检验数据集时,才开始构造模型,以便根据已存储的训练数据集的相似性对检验数据集进行分类。惰性学习法在提供训练数据集时,只做少量的计算,而在进行分类或数值预测时做...
数据分析离不开对关键指标的跟踪,指标是衡量事物好坏的一个指数。数据指标有很多,然而,并不是所有的指标都是好的,虚荣指标(Vanity Metrics)看上去很美,让你感觉良好,但这类指标说到底是肤浅的,甚至带有欺诈性,例如,你会关注网站的访问量,但却忽略了跳离率、用户的浏览时间等,这很容易让你掉进虚荣指标的陷阱。有效指标是指那些真正能够带来效益的指标,例如,转化率、留存率、日活跃人数占比...
在数据质量得到保证的前提下,通过绘制图表、计算某些统计量等手段对数据的分布特征和贡献度进行分析(帕累托分析),分布分析能够揭示数据的分布特征和分布类型,对于定量数据,可以做出频率分布表、绘制频率分布直方图显示分布特征;对于定性数据,可用饼图和条形图显示分布情况。帕累托分析在频率分布直方图的基础上,绘制累积频率,计算投入的效益。下面的例子使用vcd包中的Arthritis数据集来做数据...
数据质量通常是指数据值的质量,包括准确性、完整性和一致性。数据的准确性是指数据不包含错误或异常值、完整性是指数据不包含缺失值、一致性是数据在各个数据源中都是相同的。广义的数据质量还包括数据整体的有效性,例如,数据整体是否是可信的、数据的取样是否合理等。本文的数据质量分析,是指对原始数据值的质量进行分析,以检查数据的质量。没有可信的数据,数据分析将是空中楼阁,因此,数据分析的前提就是要保证...







