logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

全面介绍ZooKeeper原理及使用

原文写的非常好,地址:http://www.wuzesheng.com/?p=2609ZooKeeper是Hadoop Ecosystem中非常重要的组件,它的主要功能是为分布式系统提供一致性协调(Coordination)服务,与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper,第一部分介绍ZooKeeper的基本原理,第二部分介

#zookeeper
zookeeper原理(深入学习)

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookee

#zookeeper
Druid连接池简介和配置

Druid集连接池,监控于一体整好复合当前项目的需要,项目是ssh结构,之前是用C3p0的,现在换一个连接池也是很简单的,首先spring配置DataSource,配置如下:[html]view plaincopybean id="dataSource" class="com.alibaba.druid.pool.DruidDataSource" init-m

Linux(centos)的常用基本命令

Linux的常用基本命令。  首先启动Linux。启动完毕后需要进行用户的登录,选择登陆的用户不同自然权限也不一样,其中“系统管理员”拥有最高权限。  在启动Linux后屏幕出现如下界面显示:  ……  Red Hat Linux release 9 (Shrike)  Kernel2.4.20.8 on an i686  login:  输入:root(管理员名)后,

#centos
大数据处理模式 hadoop storm spark

对于仅需要批处理的工作负载,如果对时间不敏感,比其他解决方案实现成本更低的Hadoop将会是一个好选择。  对于仅需要流处理的工作负载,Storm可支持更广泛的语言并实现极低延迟的处理,但默认配置可能产生重复结果并且无法保证顺序。Samza与YARN和Kafka紧密集成可提供更大灵活性,更易用的多团队使用,以及更简单的复制和状态管理。  对于混合型工作负载,Spark可提供高速批处

#storm#spark#hadoop
分布式消息系统:Kafka

Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。原文:http://blog.jobbole.com/75328/在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低

#kafka
Kafka(分布式发布-订阅消息系统)

一、简介Apache Kafka是分布式发布-订阅消息系统,在 kafka官网上对 kafka 的定义:一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开发,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。几种分布式系统消息系统的对比:推荐相关文章:各消息队列对比,Kafk

MapReduce详解

1.1 MapReduce是什么  Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词,一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。1.2 MapReduce做什么

#mapreduce
机器学习-LVQ

学习矢量量化(Learning Vector Quantization),简称LVQ,于1988年由Kohonen提出的一类用于模式分类的有监督学习算法,是一种结构简单、功能强大的有监督式神经网络分类方法。典型的学习矢量量化算法有LVQ1、LVQ2和LVQ3,其中前两种算法应用较为广泛,尤以LVQ2的应用最为广泛和有效。已经成功应用到统计学、模式识别、机器学习等多个领域。1、简介:学习矢量量化是一

DataX介绍

一. DataX3.0概览DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新

#数据库
到底了