logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

非结构化数据怎么存?——开源对象存储方案介绍

过去的相当长的一段时间里,商用对象存储占据了市场上的大量的份额。国外的Amazon S3,国内的阿里云OSS都成为了大多数公司的选择。但是构建一个企业级的数据湖(包括结构化和非结构化数据)已经成为了越来越多公司的目标。那么Hadoop还能满足我们的要求吗?还是我们需要更多的选择?存储方案如图所示,底层存储大体可以分为四类。对象存储(Object Storage),NoSQL 数据库(NoSQL S

文章图片
#hadoop#big data#nosql
(14)YARN Timeline Server

概述介绍当前状态时间轴结构部署配置运行时间线服务器通过命令行访问通用数据发布应用程序的具体数据时间线服务器REST API通用数据REST API概述介绍通过时间轴服务器在YARN中以通用方式存储和检索应用程序的当前和历史信息。它有两个责任:坚持应用程序特定信息收集和检索完全具体到应用程序或框架的信息。例如,Hadoop MapReduc

大数据平台最常用的30款开源工具

大数据平台是对海量结构化、非结构化、半机构化数据进行采集、存储、计算、统计、分析处理的一系列技术平台。大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的各类技术。本文整理出了大数据平台常见的一些开源工具,并且依据其主要功能进行分类,以便大数据...

Spark Streaming -2. Kafka集成指南(Kafka版本0.10.0或更高版本)

在spark1.3版本后,kafkautil里面提供了两个创建dstream的方法,1、KafkaUtils.createDstream构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据,利用的是Kafka高层次的消费者a

暂无文章信息