logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据分析3 - 算法篇

数据分析实战3.算法篇分类算法:NB、C4.5、CART、SVM、KNN、Adaboost聚类算法:K-Means、EM关联分析:Apriori链接分析:PageRank17 丨决策树(上):要不要去打篮球?决策树来告诉你决策树学习通常包括三个步骤特征选择。选取最优特征来划分特征空间,用信息增益或者信息增益比来选择决策树的生成。ID3、C4.5、CART剪枝纯度...

#python
数据挖掘算法07 - K-Means

K-MeansK-Means 算法原理,来看下这三个问题。如何确定 K 类的中心点?其中包括了初始的设置,以及中间迭代过程中中心点的计算。在初始设置中,会进行 n_init 次的选择,然后选择初始中心点效果最好的为初始值。在每次分类更新后,你都需要重新确认每一类的中心点,一般采用均值的方式进行确认。如何将其他点划分到 K 类中?这里实际上是关于距离的定义,我们知道距离有多种定义的方式,在 K...

数据挖掘算法03 - CART

CARTCART 算法另一种常见的决策树是 CART 算法(Classification and Regression Trees,分类与回归树)。这种算法和 ID3、C4.5 相比,主要有两处不同:在分类时,CART 不再采用信息增益或信息增益率,而是采用基尼指数(Gini)来选择最好的特征并进行数据的划分;在 ID3 和 C4.5 决策树中,算法根据特征的属性值划分数据,可能会划...

数据挖掘算法02 - C4.5

C4.5决策树学习通常包括三个步骤特征选择。选取最优特征来划分特征空间,用信息增益或者信息增益比来选择决策树的生成。ID3、C4.5、CART剪枝什么是信息熵?随机变量x概率P(x) 表示 x 出现的概率信息量H(x)=−log(P(x))信息量是信息论中的一个度量,简单来说就是,当我们观察到某个随机变量的具体值时,接收到了多少信息。而我们接收到的...

数据挖掘算法09 - Apriori

Apriori关联规则挖掘可以让我们从数据集中发现项与项(item 与 item)之间的关系,它在我们的生活中有很多应用场景,“购物篮分析”就是一个常见的场景,这个场景可以从消费者交易记录中发掘商品与商品之间的关联关系,进而通过商品捆绑销售或者相关推荐的方式带来更多的销售量。所以说,关联规则挖掘是个非常有用的技术。知识点搞懂关联规则中的几个重要概念:支持度、置信度、提升度;Aprio...

数据挖掘算法10 - PageRank

PageRankPageRank 的简化模型假设一共有 4 个网页 A、B、C、D。它们之间的链接信息如图所示:出链指的是链接出去的链接。入链指的是链接进来的链接。比如图中 A 有 2 个入链,3 个出链。简单来说,一个网页的影响力 = 所有入链集合的页面的加权影响力之和,用公式表示为:u 为待评估的页面,Bu为页面 u 的入链集合。针对入链集合中的任意页面 v,它能给 u ...

数据挖掘算法01 - NB

Naive Bayes概率和统计里有哪些需要掌握的概念?随机变量(Random Variable)来描述事件所有可能出现的状态离散型随机变量(Discrete Random Variable)连续型随机变量(Continuous Random Variable)概率分布(Probability Distribution)来描述每个状态出现的可能性联合概率(Joint Probab...

数据挖掘算法04 - SVM

SVMSVM 的英文叫 Support Vector Machine,中文名为支持向量机。它是常见的一种分类方法,在机器学习中,SVM 是有监督的学习模型。什么是有监督的学习模型呢?它指的是我们需要事先对数据打上分类标签,这样机器就知道这个数据属于哪个分类。同样无监督学习,就是数据没有被打上分类标签,这可能是因为我们不具备先验的知识,或者打标签的成本很高。所以我们需要机器代我们部分完成这个工...

数据分析1 - 预习篇

数据分析实战.预习篇数据分析实战45讲开篇词 | 你为什么需要数据分析能力?MAS 方法学习数据分析的核心就是培养数据思维,掌握挖掘工具,熟练实践并积累经验从“思维”到“工具”再到“实践”01丨数据分析全景图及修炼指南数据分析分成三个重要的组成部分数据采集数据挖掘数据可视化修炼指南我们只有把知识转化为自己的语言,它才真正变成了我们自己的东...

#python
重学前端0 - 开篇

开篇重学前端开篇词 | 从今天起,重新理解前端前端的史前记忆:“青铜时代”AjaxWeb 1.0(静态网页)到 Web 2.0(动态网页)的迈进进入发展期的前端:“白银时代”前端逐步从后端分离了出来,它的代码也变得复杂了起来,还需要保存数据、处理数据、生成视图等。从前端到“全端”:“黄金时代”逐步过渡到提倡组件化和 UI 架构模式,最后形成了新一代的前端框架Rea...

    共 14 条
  • 1
  • 2
  • 请选择