burpee 个人主页

@burpee

burpee

2023-12-07 13:00:16 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

全面介绍ZooKeeper原理及使用

原文写的非常好，地址：http://www.wuzesheng.com/?p=2609ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介

#zookeeper

zookeeper原理（深入学习）

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。Zookeeper是hadoop的一个子项目，其发展历程无需赘述。在分布式应用中，由于工程师不能很好地使用锁机制，以及基于消息的协调机制不适合在某些应用中使用，因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookee

#zookeeper

Druid连接池简介和配置

Druid集连接池，监控于一体整好复合当前项目的需要，项目是ssh结构，之前是用C3p0的，现在换一个连接池也是很简单的，首先spring配置DataSource，配置如下：[html]view plaincopybean id="dataSource" class="com.alibaba.druid.pool.DruidDataSource" init-m

Linux(centos)的常用基本命令

Linux的常用基本命令。　　首先启动Linux。启动完毕后需要进行用户的登录，选择登陆的用户不同自然权限也不一样，其中“系统管理员”拥有最高权限。　　在启动Linux后屏幕出现如下界面显示：　　……　　Red Hat Linux release 9 (Shrike)　　Kernel2.4.20.8 on an i686　　login:　　输入：root(管理员名)后，

#centos

大数据处理模式 hadoop storm spark

对于仅需要批处理的工作负载，如果对时间不敏感，比其他解决方案实现成本更低的Hadoop将会是一个好选择。　　对于仅需要流处理的工作负载，Storm可支持更广泛的语言并实现极低延迟的处理，但默认配置可能产生重复结果并且无法保证顺序。Samza与YARN和Kafka紧密集成可提供更大灵活性，更易用的多团队使用，以及更简单的复制和状态管理。　　对于混合型工作负载，Spark可提供高速批处

#storm #spark #hadoop

分布式消息系统：Kafka

Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。原文：http://blog.jobbole.com/75328/在大数据系统中，常常会碰到一个问题，整个大数据是由各个子系统组成，数据需要在各个子系统中高性能，低

#kafka

Kafka(分布式发布-订阅消息系统)

一、简介Apache Kafka是分布式发布-订阅消息系统，在 kafka官网上对 kafka 的定义：一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开发，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。几种分布式系统消息系统的对比：推荐相关文章：各消息队列对比，Kafk

MapReduce详解

1.1 MapReduce是什么　　Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词，一是软件框架，二是并行处理，三是可靠且容错，四是大规模集群，五是海量数据集。1.2 MapReduce做什么

#mapreduce

机器学习-LVQ

学习矢量量化(Learning Vector Quantization)，简称LVQ，于1988年由Kohonen提出的一类用于模式分类的有监督学习算法，是一种结构简单、功能强大的有监督式神经网络分类方法。典型的学习矢量量化算法有LVQ1、LVQ2和LVQ3，其中前两种算法应用较为广泛，尤以LVQ2的应用最为广泛和有效。已经成功应用到统计学、模式识别、机器学习等多个领域。1、简介：学习矢量量化是一

DataX介绍

一. DataX3.0概览DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新

#数据库

到底了