
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
中级练习[2]:Hive SQL数据分析与查询实战
查询订单明细表(order_detail)中销量(下单件数)排名第二的商品id,如果不存在返回null,如果存在多个排名第二的商品则需要全部返回。

Hadoop 中的大数据技术:调优篇(3)
存储小文件会导致 NameNode 内存消耗过多,因为每个文件都需要按块存储,而每个块的元数据都存储在 NameNode 的内存中。使用 HDFS 存档文件(HAR 文件)来更高效地归档小文件,减少 NameNode 内存使用的同时保持文件的透明访问。结果显示,磁盘的总体混合随机读速度为 220MiB/s,写速度为 94.6MiB/s。结果显示,磁盘的总体顺序读速度为 360MiB/s。结果显示,

大数据技术之 Flume概述、安装(1)
Flume 是 Cloudera 提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。为什么选用 FlumePython爬虫数据Java后台日志数据服务器本地磁盘文件HDFS 文件夹Kafka 网络端口数据Flume 最主要的作用就是实时读取服务器本地磁盘的数据,并将数据写入到 HDFS。

到底了