登录社区云,与社区用户共同成长
邀请您加入社区
该用户还未填写简介
暂无可提供的服务
本次实战任务目标是使用Hadoop MapReduce技术对两个包含重复数据的文本文件file1.txt和file2.txt进行去重操作,并将结果汇总到一个文件。首先启动Hadoop服务,然后在虚拟机上创建这两个文本文件并上传到HDFS的/dedup/input目录。在Map阶段,我们创建自定义Mapper类DeduplicateMapper,将TextInputFormat默认组件解析的键值对修