logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

中级练习[2]:Hive SQL数据分析与查询实战

查询订单明细表(order_detail)中销量(下单件数)排名第二的商品id,如果不存在返回null,如果存在多个排名第二的商品则需要全部返回。

文章图片
#hive#sql#数据分析 +2
Hadoop 中的大数据技术:调优篇(3)

存储小文件会导致 NameNode 内存消耗过多,因为每个文件都需要按块存储,而每个块的元数据都存储在 NameNode 的内存中。使用 HDFS 存档文件(HAR 文件)来更高效地归档小文件,减少 NameNode 内存使用的同时保持文件的透明访问。结果显示,磁盘的总体混合随机读速度为 220MiB/s,写速度为 94.6MiB/s。结果显示,磁盘的总体顺序读速度为 360MiB/s。结果显示,

文章图片
#大数据#hadoop#分布式
大数据技术之 Flume概述、安装(1)

Flume 是 Cloudera 提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。为什么选用 FlumePython爬虫数据Java后台日志数据服务器本地磁盘文件HDFS 文件夹Kafka 网络端口数据Flume 最主要的作用就是实时读取服务器本地磁盘的数据,并将数据写入到 HDFS。

文章图片
#大数据#flume
到底了