logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

下文将介绍这些框架:仅批处理框架: Apache Hadoop仅流处理框架: Apache Storm Apache Samza混合框架: Apache Spark Apache Flink大数据处理框架是什么?虽然“引擎”和“框架”之间的区别没有什么权威的定义,但大部分时候可以将前者定义为实际负责处理数据操作的组件,后者则可定义为承担类似作用的一系列组件。例如Apa

大数据技术的回顾与展望 ——写在Hadoop十周年纪念

今天是Hadoop十岁生日。于2006年1月28日诞生的它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。InfoQ策划了一系列文章,为大家梳理Hadoop这十年的变化,以及技术生态圈状况,本文是第一篇。1. 引子什么是大数据?麦肯锡公司的报告《大数据:创新、竞争和生产力的下一个前沿领域》中给出的大数据定义是:大数据指的

基于微软案例数据挖掘之Microsoft 关联规则分析算法

此篇的Microsoft关联规则算法就是用来挖掘关联关系的典型算法,闲言少叙,我们直接进入正题。应用场景介绍关联规则算法是在大量数据事例中挖掘项集之间的关联或相关联系,它典型的应用就是购物篮分析,通过关联规则分析帮助我们发现交易数据库中不同的商品(项)之间的联系,找到顾客购买行为模式,如购买某一个商品对其它商品的影响。进而通过挖掘结果应用于我们的超市货品摆放、库存安排、电子商务网站的导航安

#数据挖掘#算法#人工智能
大数据的的超级应用—数据挖掘之推荐系统

数据挖掘——推荐系统      大数据可以认为是许多数据的聚合,数据挖掘是把这些数据的价值发掘出来,比如有过去10年的气象数据,通过数据挖掘,几乎可以预测明天的天气是怎么样的,有较大概率是正确的。机器学习是人工智能的核心,对大数据进行发掘,靠人工肯定是做不来的,那就得靠机器代替人工得到一个有效模型,通过该模型将大数据中的价值体现出来。本章内容:1) 数据挖掘和机器学习概念2)

Storm介绍及与Spark Streaming对比

1 Storm介绍Storm是由Twitter开源的分布式、高容错的实时处理系统,它的出现令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。在Storm的集群里面有两种节点:控制节点(Master Node)和工作节点(Worker Node)。控制节点上面运行一个名为Nimbus的进程,它用

#spark#storm
Spark-core解读

从三个部分来解读Spark-core,首先是Spark的架构,阐述了Spark基于弹性分布式数据集RDD这个计算模型的工作机制(计算流程):Application->Job->Stage->Task 的分解、分发和并行计算;接下去从计算模型和工作机制两个方面,分别解读RDD的设计思想及其算子,以及划分RDD有向无环图为Stage和Task、并行计算的工作机制。进一步的原理分析和源码研读将在该系列的

大数据的的超级应用—数据挖掘之推荐系统

数据挖掘——推荐系统      大数据可以认为是许多数据的聚合,数据挖掘是把这些数据的价值发掘出来,比如有过去10年的气象数据,通过数据挖掘,几乎可以预测明天的天气是怎么样的,有较大概率是正确的。机器学习是人工智能的核心,对大数据进行发掘,靠人工肯定是做不来的,那就得靠机器代替人工得到一个有效模型,通过该模型将大数据中的价值体现出来。本章内容:1) 数据挖掘和机器学习概念2)

(5)数据挖掘算法之EM

1. 极大似然极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法。比如,我们想了解抛硬币是正面(head)的概率分布 ;那么可以通过最大似然估计方法求得。假如我们抛硬币 次,其中 次正面、 次反面;极大似然估计参数 值:           其中, 为观测变量序列的似然函数(likelihood function of the

#数据挖掘#人工智能
(2)数据挖掘算法之k-means

1. 引言k-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法;二者相同之处:均利用近邻信息来标注类别。聚类是数据挖掘中一种非常重要的学习流派,指将未标注的样本数据中相似的分为同一类,正所谓“物以类聚,人以群分”嘛。k-means是聚类算法中最为简单、高效的,核心思想:由用户指定k个初始质心(initial ce

基于微软案例数据挖掘之结果预测篇

本篇也是数据挖掘各层次间最高的产物,推测未知的事物。鉴于各种算法应用场景不同,还有用法区别...后期我会整理出文章目录,供对大数据兴趣的同学查阅。应用场景介绍通过前几篇文章对挖掘算法的介绍,其实应用的场景大部分是围绕着已经购买自行车这部分群体的特征、行为分析,对他们的特性进行分类挖掘,对于我们想要知道那些人会买自行车特征进行推测,但所有这些的这些都是基于已经发生的事实,而没有对未来未发

    共 71 条
  • 1
  • 2
  • 3
  • 8
  • 请选择