logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Hive实战:计算总分与平均分

本次实战以Hive为核心,针对学生成绩数据进行统计分析。首先,在虚拟机中创建score.txt文件存储五名学生的成绩记录,并上传至HDFS的路径下。接着启动Hive Metastore服务和客户端,创建与成绩表结构对应的内部表t_score,并运用load data命令将HDFS数据导入该表。最后,通过编写SQL语句按学生姓名分组,对各科成绩求和计算总分、平均分。此过程充分展示了Hive在大数据处

文章图片
#hive
Hive实战:词频统计

在大数据实战中,我们利用Hive对存储在HDFS的文本数据进行词频统计。首先,我们在master虚拟机创建test.txt文件,并将其上传至HDFS的/hivewc/input目录作为输入源。随后启动Hive Metastore服务和客户端,创建名为t_word的外部表映射至该HDFS路径,使Hive能够直接访问并解析文本内容。为实现词频统计,精心编写了Hive SQL语句,运用explode和s

文章图片
#hive#hadoop#数据仓库
MR实战:分科汇总求月考平均分

在本次实战中,我们将利用Hadoop MapReduce处理学生月考成绩数据,目标是计算每个同学语文、数学和英语的平均分。通过启动Hadoop服务、准备数据、创建Maven项目以及实现Mapper、Reducer和Driver类,我们将深入实践大数据处理流程。此任务将帮助我们理解MapReduce的工作原理,并提升大数据分析能力。一起来探索分布式计算的力量,揭示隐藏在海量数据中的学习表现趋势。我们

文章图片
#mr
到底了