基本组件:

Zookeeper 分布式协作框架

HDFD存储海量数据

YARN集群资源管理 资源调度

MapReduce并行计算框架

分为:

测试集群

机器数量:

5台-10台

机器的配置:(大数据平台的瓶颈:内存)hBash权威指南 

1、内存  不低于24G 32G以上 

Zookeeper节点(2G) HDFS (NameNode  每100万个文件需要1G内存;企业级 4G-8G-12G ;DataNode 4G-6G)YARN(ResourceManager 2G-4G NodeManager 2G) 每台机器的NameNode 内存、CPU越多越好,调度任务多; MapReduce 资源来源于NodeManager

2、硬盘 4TB/ 10T 越多越好 5台机器 20TB的存储

3、CPU 核数 6核以上 运行一个Map任务默认1G内存一核CPU

4、网卡:万兆 10万 100万 网线 光纤 影响数据读写和传输效率


生产集群 规模

小型集群 15-20台以下

中型集群 50台以下

大型集群 50台以上

测试

基本测试:功能测试

基准测试:性能测试 监控指标


Logo

权威|前沿|技术|干货|国内首个API全生命周期开发者社区

更多推荐