社区云

写文章

登录社区云

登录社区云，与社区用户共同成长

邀请您加入社区

欢迎加入社区

热门标签

#人工智能
#python
#java
#开发语言
#spring boot
#数据库

mapreduce

0订阅用户 · 4468篇文章

Mr Gao 来自魔乐社区

modelers.csdn.net · 2020-12-15 17:03:54

大数据处理-mapreduce 代码入门实例-多表连接、对单词排序、对数据过滤、统计单词数量并排序、分区统计等

多表连接思路为，通过map阶段将数据按<key，value>进行map，key为id，则shuffle阶段会自动进行组合，但同时对两个表的内容进行标记，进行笛卡尔积时可以进行区分。代码如下package org.apache.hadoop.examples;import org.apache.hadoop.conf.Configuration;import org.apache.had

#hadoop #mapreduce #java +1

2777 

5 
卿洲同学的好哥哥来自魔乐社区

modelers.csdn.net · 2023-07-26 23:54:14

## MapReduce入门案例——某东手机和电脑销售数据分析

利用Python爬虫从平台爬取部分时段销售数据，按照一定格式存储在文本文档（input目录下的computerfinal.txt和Pone）中。通过MapReduce进行数据分析输出处理结果到output目录下part-r-00000文件（其余文件为crc校验信息等），之后将结果利用前端页面展示。

#mapreduce #hadoop #java +1

429 
侬本多情。来自魔乐社区

modelers.csdn.net · 2021-08-15 14:52:49

spark数据分析

spark案例1、sparkpihadoop@ddai-master:/opt/spark-2.1.0-bin-hadoop2.7$ vim SparkPihadoop@ddai-master:/opt/spark-2.1.0-bin-hadoop2.7$ run-example SparkPi 10 > SparkPi.txtobject SparkPi {def main(args: A

#spark #大数据 #hadoop +2

1266 
百木从森来自魔乐社区

modelers.csdn.net · 2021-07-21 14:43:41

【MapReduce】分析每个部门工资总额的数据处理流程并开发程序

分析每个部门总额的数据处理流程并开发程序1 分析每个部门工资总额的数据处理流程2 每个部门工资总额程序开发2.1 创建框架2.2 开发Mapper程序2.3 开发Reduce程序2.4 执行主程序手动反爬虫，禁止转载：原博地址 https://blog.csdn.net/lys_828/article/details/118964468（CSDN博主：Be_melting）知识梳理不易，请尊重劳动

#java #大数据 #hadoop +1

1474 

2 
沉默的王二来自魔乐社区

modelers.csdn.net · 2024-05-06 18:24:51

【MapReduce】扩展案例 ---- TopN（求取数据集前N名）_topn maprreduce

定义在map()外面。

#mapreduce #大数据

556 

5 
め追光者来自讯飞AI开发者社区

xfyun.csdn.net · 2020-07-28 12:32:47

java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.io.BytesWritable cannot be cast

错误异常java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.io.BytesWritable cannot be cast to org.apache.hadoop.io.ByteWritablejava.lang.Exception: java.lang.ClassCastException: org.apac

#hadoop #mapreduce

3489 
岁月的眸来自讯飞AI开发者社区

xfyun.csdn.net · 2022-07-13 22:00:17

跨集群拷贝Distcp性能测试

distcp+shell脚本实现跨集群数据迁移

#hadoop #mapreduce #大数据

3993 

4 
黑猫酋长来自松山湖开发者村综合服务平台

community.sslcode.com.cn · 2025-09-15 19:53:07

MapReduce 的执行原理

本文系统介绍了MapReduce分布式计算模型的执行原理。MapReduce采用"分而治之"思想，将任务分解为Map和Reduce两个阶段：Map阶段并行处理数据分片并生成中间键值对；Shuffle阶段对中间结果进行分区、排序和聚合；Reduce阶段完成最终计算。该模型具有编程简单、并行度高、容错性强等优点，但也存在磁盘I/O依赖、迭代计算效率低等局限。虽然新兴计算框架不断涌现

#mapreduce #大数据

988 

32 
尚硅谷铁粉来自讯飞AI开发者社区

xfyun.csdn.net · 2022-11-25 09:52:29

大数据培训教程Partition分区案例实操

/ 7 将job中配置的相关参数，以及job所用的java类所在的jar包，提交给yarn去运行。// 3 指定本业务job要使用的mapper/Reducer业务类。// 输入输出路径需要根据自己电脑上实际的输入输出路径设置。// 2 指定本程序的jar包所在的本地路径。// 4 指定mapper输出数据的kv类型。// 6 指定job的输入原始文件所在目录。// 5 指定最终输出的数据的kv

#大数据 #hadoop #mapreduce

259 
闻香识代码来自讯飞AI开发者社区

xfyun.csdn.net · 2020-08-02 15:08:15

大数据技术层级划分

大数据层级划分你们的灵魂画手再次上线，本次带来大数据技术层级划分的简图，如有错漏，欢迎私信支出。技术的进步在于多多交流和沟通，我是程序猿，为自己的头发加油！！！整个大数据体系可以看出来，分为很多层，每一小块其实都有很深的技术知识值得去钻研，我才开始，希望后续可以看到更多精彩。...

#hdfs #hadoop #mapreduce

3091 
阿诺de大数据之路来自讯飞AI开发者社区

xfyun.csdn.net · 2024-05-05 15:38:00

Hadoop 大数据之 Mapreduce 笔记一

1）什么是序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。2）为什么要序列化一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的

#大数据 #hadoop #mapreduce

872 

22 
Jessica925 来自讯飞AI开发者社区

xfyun.csdn.net · 2022-06-30 21:37:43

MapReduce任务优化阿里云平台ODPS Join方法等等详细解析

1 计算机性能CPU,内存,磁盘健康,网络2 I/O操作优化-数据倾斜数据输入Map阶段Reduce阶段Map长尾:Map端读取数据由于带下分布不均匀,会导致一些Map Instance读取和处理的数据特别多,造成Map长尾;主要是由于Reduce长尾:主要是keyy的分布不均匀所导致,主要场景:Join长尾:主要场景为动态分区优化:动态分区带来的小文件过多的问题进行小文件合并开窗函数的优化:某个

#mapreduce #odps #大数据

1402 

5 
菜菜的大数据开发之路来自讯飞AI开发者社区

xfyun.csdn.net · 2021-07-08 08:08:02

三-中上, 大数据基础架构Hadoop- Hadoop序列化概述和案例实操 hf

文章目录二, Hadoop序列化2.1 序列化概述2.2 自定义bean对象实现序列化接口(Writable)2.3 序列化案例实操二, Hadoop序列化2.1 序列化概述[什么是序列化 ?]序列化就是把内存中的对象, 转换为字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络存储.反序列化就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据, 转换为内存中的对象.简而

#mapreduce #hadoop #大数据

421 
拉霍拉卡来自讯飞AI开发者社区

xfyun.csdn.net · 2024-03-07 10:29:24

大数据开发-Hadoop之深入MapReduce

MapReduce日志、序列化

#大数据 #hadoop #mapreduce

730 

12 
鼎道开发者联盟来自讯飞AI开发者社区

xfyun.csdn.net · 2021-11-09 18:22:32

浅谈大数据（一）

数据之于网络时代，犹如石油之于工业时代。大数据即是在互联网时代，信息储存和处理能力飞跃发展之后的一个成果，蕴含着巨大的应用空间和商业价值。如今，随着大数据相关技术不断演进迭代，大数据技术已进入“后红海”时代，成了“水电煤”一样可以普惠人人的技术，并且成为各大企业公司攫取利益的重要工具。11月1日，已正式实施的《个人信息保护法》对“大数据杀熟”出重拳，大数据和算法再次成为行业内外讨论的热点。那么，我

#big data #hadoop #mapreduce

1624 
民工哥来自讯飞AI开发者社区

xfyun.csdn.net · 2023-06-13 08:21:43

进击大数据系列（五）：Hadoop 统一资源管理和调度平台 YARN

点击下方名片，设为星标！回复“1024”获取2TB学习资源！前面介绍了 Hadoop 基本概念与生态、安装（HDFS+YARN+MapReduce）实战操作、常用命令、架构基石 HDFS等相关的知识点，今天我将详细的为大家介绍大数据 Hadoop 统一资源管理和调度平台 YARN 相关知识，希望大家能够从中收获多多！如有帮助，请点在看、转发支持一波！！！Yarn 概述Apache Yarn（Ye

#hadoop #大数据 #mapreduce +2

780 
民工哥来自讯飞AI开发者社区

xfyun.csdn.net · 2023-06-11 08:21:52

进击大数据系列（三）：Hadoop 常用命令介绍

点击下方名片，设为星标！回复“1024”获取2TB学习资源！前面介绍了 Hadoop 基本概念与生态、安装（HDFS+YARN+MapReduce）实战操作等相关的知识点，今天我将详细的为大家介绍大数据 Hadoop 常用命令相关知识，希望大家能够从中收获多多！如有帮助，请点在看、转发支持一波！！！Hadoop 常用命令所有的 Hadoop 命令均由 bin/hadoop 脚本引发。不指定参数

#hadoop #大数据 #hdfs +2

407 
办公模板库素材蛙来自讯飞AI开发者社区

xfyun.csdn.net · 2022-04-30 09:15:33

大数据Spark实战第一集导学

开篇词：学了就能用的 Spark？你好，很高兴我们在《即学即用的 Spark 实战 44 讲》这个课程中相遇，我是范东来，Spark Contributor 和 Superset Contributor，同样也是《Spark 海量数据处理》与《Hadoop 海量数据处理》两本书的作者。谈起大数据技术的学习，我觉得自己很幸运，研究生阶段就通过实验室项目积累了很多实践经验，毕业后在担任技术负责人和架构

#spark #mapreduce #hadoop

933 
Snowing_inhope 来自讯飞AI开发者社区

xfyun.csdn.net · 2020-04-16 12:38:09

Haddoop大数据教程笔记_02_Hadoop生态圈简介

Hadoop生态圈简介目录Hadoop生态圈简介Hadoop生态圈：（一）Hdfs（二）Mapreduce（三）Hive（四）Hbase（五）Zookeeper（六）Sqoop（七）Pig（八）Mahout（九）Flume（十）Spark（十一）Storm（十二）Impala（十三）Kafka（十四）Yarn（十五）Hue...

#hadoop #hdfs #mapreduce

893 
Garyodd 来自讯飞AI开发者社区

xfyun.csdn.net · 2023-02-17 22:37:32

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【MapReduce组件】

1、定义类继承Partitioner类2、重写getPartition方法，在该方法中对每一个K2和V2打标记，标记从0开始，0标记的键值对会被0编号的Reduce拉取进行聚合，1标记的键值对会被1编号的Reduce进行聚合/*** @param i Reduce的个数* @return*/@Override// 长度>=5的单词打标记为0// 长度小于5的单词打标记为1return 0;3、设置

#大数据 #mapreduce #学习

293 
百思不得小赵来自讯飞AI开发者社区

xfyun.csdn.net · 2022-07-07 17:31:07

大数据技术入门：MapReduce（分布式计算框架）

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）“和"Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归

#mapreduce #大数据 #hadoop

1405 

4 
兰智数据学院来自讯飞AI开发者社区

xfyun.csdn.net · 2023-03-14 18:10:51

浅谈大数据技术与未来方向

一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。“数据量巨大就是大数据！

#大数据 #hadoop #hdfs +2

1252 

1 
yiluohan0307 来自讯飞AI开发者社区

xfyun.csdn.net · 2023-02-26 21:34:38

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——OutputFormat数据输出

OutputFormat数据输出

#hadoop #mapreduce #大数据

1676 

2 
jackyan163 来自讯飞AI开发者社区

xfyun.csdn.net · 2021-12-08 15:50:43

大数据之Hadoop-MapReduce（2）

1 OutputFormat数据输出1.1 OutputFormat接口实现类OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了 OutputFormat接口。下面我们介绍几种常见的OutputFormat实现类。1 文本输出TextOutputFormat默认的输出格式是TextOutputFormat，它把每条记录写为文本行。它的键和值可以是任意类型

#hadoop #mapreduce #big data

272 
拉格朗日(Lagrange) 来自讯飞AI开发者社区

xfyun.csdn.net · 2022-05-25 19:14:59

大数据知识面试题-MapReduce和YARN（2022版）

序列号内容链接1大数据知识面试题-通用（2022版）待续…2大数据知识面试题-Hadoop（2022版）待续…3大数据知识面试题-MapReduce和yarn（2022版）待续…4大数据知识面试题-Zookeepr （2022版）待续…5大数据知识面试题-Hive （2022版）待续…6大数据知识面试题-Flume（2022版）待续…7大数据知识面试题-Hbase（2022版）待续…8大数据知识面

#big data #mapreduce #yarn

5713 

12 
阿九-进取的测试er 来自讯飞AI开发者社区

xfyun.csdn.net · 2023-02-07 15:35:32

大数据第二篇-计算引擎

大数据第二篇-计算引擎

#大数据 #hadoop #mapreduce

564 
ShowMeAI 来自讯飞AI开发者社区

xfyun.csdn.net · 2022-03-08 18:06:24

图解大数据 | 应用Map-Reduce进行大数据统计@实操案例

Hadoop使用一套Map-Reduce的计算框架，解决了大数据处理的难题。本教程ShowMeAI通过几个实例和代码，详细给大家讲解Hadoop使用Map-Reduce进行数据统计的方法。

#big data #hadoop #mapreduce +1

1.2w 

2 
是小先生来自讯飞AI开发者社区

xfyun.csdn.net · 2022-03-14 02:49:05

大数据笔记--Hadoop（第六篇）

一、YARN1、概述2、YARN的结构二、YARN的执行流程三、ResourceScheduler-资源调度器1、FIFO(先进先出)2、Capacity(资源容量)3、Fair(公平资源)四、完全分布式结构1、结构2、常见问题Operation category READ is not supported in state standby.3、添加节点五、Federation HDFS-联邦HD

#hdfs #mapreduce #hadoop

1254 
DUT_子陌来自讯飞AI开发者社区

xfyun.csdn.net · 2021-12-19 18:48:49

大数据之旅——hadoop篇之MapReduce（3）

hadoop之MapReduce

#hadoop #mapreduce #big data

1474 
是小先生来自讯飞AI开发者社区

xfyun.csdn.net · 2022-03-12 20:10:17

大数据笔记--Hadoop（第四篇）

一、MapReduce1、概述MapReduce是Hadoop提供的一套进行分布式计算机制MapReduce是Doug Cutting根据Google的论文<The Google MapReduce>来仿照实现的MapReduce会将整个计算过程拆分为2个阶段：Map阶段和Reduce阶段。在Map阶段，用户需要考虑对数据进行规整和映射；在Reduce阶段，用户需要考虑对数据进行最后的

#hadoop #big data #mapreduce

2270 
江凌来自讯飞AI开发者社区

xfyun.csdn.net · 2020-08-21 10:47:10

大数据Hadoop学习之——网页排名PageRank算法

一、算法说明PageRank即网页排名，也称佩奇排名（社会）。一些基本概念：1、网页入链：即投票，网页中对其他网页的超链接作为其他网页的入链，相当于对其他网页投一票；2、入链数量：如果一个网页获得其他网页的入链数量（投票）越多，说明该网页越重要；3、入链质量：即投票权值，入链的质量由投票的网页决定，初始化值所有网页都一样，可以设置为1。网页的超链接越多，投票的权值越低。4、阻尼系数d：也是佩奇定义

#hadoop #mapreduce

1745 
yiluohan0307 来自讯飞AI开发者社区

xfyun.csdn.net · 2023-03-02 05:45:00

大数据框架之Hadoop：MapReduce（四）Hadoop数据压缩

Hadoop数据压缩

#hadoop #大数据 #mapreduce

449 
陈一月的编程岁月来自讯飞AI开发者社区

xfyun.csdn.net · 2020-04-29 14:10:19

大数据hadoop学习【13】-----通过JAVA编程实现对MapReduce的数据进行去重

大数据hadoop学习【13】-----通过JAVA编程实现对MapReduce的数据进行去重目录一、数据准备1、ubuntu文件系统中准备对应数据文件2、运行hadoop3、将文件上传至hadoop文件系统二、编写java程序1、打开eclipse，编写数据去重的java代码2、将java文件打包成jar三、结果测试1、终端运行jar包2、查看运行结果3、运行结果分析4、实验结束，关闭hadoo

#hadoop #mapreduce #大数据 +1

3377 

7 
@阿证1024 来自讯飞AI开发者社区

xfyun.csdn.net · 2020-05-18 16:25:59

大数据Hadoop之终于弄懂了MapReduce中reduce阶段Iterable迭代出的是同一个对象

1. 前言：之前在看一个老师写流量统计案例时，他刚开始的Mapper代码是这样写的：然后他说这样每次都要造对象，所以他改成了这样：但是这样我就不理解了，因为你每次获取一行数据都要将其对应的上行流量、下行流量放到一个对象中，又因为每一行的数据不同，所以你每次都应该new 一个对象，用来存放数据。如果改成第二种方式，在对一个文件每一行数据读取时，你始终用的就是同一个对象，你每次set值都是对前一个值得

#hadoop #大数据 #mapreduce

1269 

4 
chenbengang 来自讯飞AI开发者社区

xfyun.csdn.net · 2020-05-01 09:44:59

大数据-MapReduce

大数据-MapReduce分布式并行编程传统的并行计算，共享型方案刀片服务器，适用于实时的细粒度计算，尤其是计算密集的应用。MapReduce扩展性好，节点普通pc也可，每个节点拥有自己的内存和空间，适用于非实时的批处理，以及数据密集型的应用。MapReduce模型复杂的计算过程高度抽象成两个函数，map和reduce。将庞大数据切片，对每个小片并行的单独使用map处理，计算向数...

#mapreduce

945 

1 
MangataTS 来自讯飞AI开发者社区

xfyun.csdn.net · 2021-12-05 21:03:04

大数据Hadoop复习笔记

题型与分值选择题10道*2分=20分填空题5道*2分=10分判断题5道*1分=5分简答题2道*10分=20分方案设计题1道*15分=15分（无唯一标准答案，可用中文写清楚每个关键步骤和重要技术点，也可直接写代码，或者中文和代码混合说明）注意：①写清方案实行的步骤②每个步骤的重要技术点，比如用的哪个类来实现程序设计题6段*5分=30分（从挖行改成挖段）内容复习hive的JSON和多字节分隔符的解析步

#hadoop #big data #mapreduce +2

4075 

15 
阿宁呀来自讯飞AI开发者社区

xfyun.csdn.net · 2023-05-05 09:45:00

【大数据之Hadoop】二十四、Yarn的tool接口

传入的参数的数组元素有3个，分别是-Dmapreduce.job.queuename=root.test、/inpu、 /output，而程序里的输入输出路径为传入数组的第一第二个元素，所以需要编写Yarn的Tool接口动态修改参数。（6）进到jar包的存放目录，向集群提交jar文件执行，此时为3个参数，第一个用于生成特定的Tool，第二个和第三个为输入输出目录，显示正常运行。（7）在wordco

#hadoop #大数据 #yarn +1

194 
阿宁呀来自讯飞AI开发者社区

xfyun.csdn.net · 2023-04-13 14:45:00

【大数据之Hadoop】十三、MapReduce之WritableComparable排序

MapReduce框架必须进行排序，MapTask和ReduceTask都会对key按字典顺序排序，是默认的行为（默认使用快速排序），有利于提高效率。MapTask把处理结果暂时放到环形缓冲区，当环形缓冲区的使用率达到一定阈值（80%）时，对其进行一次快速排序，然后将有序数据写到磁盘上。（1）部分排序：MapReduce根据输入的键进行排序，保证输出的每个文件内部的有序。如果磁盘上的文件数目达到一

#hadoop #大数据 #mapreduce

473 
fengchengwu2012 来自讯飞AI开发者社区

xfyun.csdn.net · 2021-12-06 17:48:00

大数据计算框架MapReduce入门

MapReduce实现WordCount

#big data #mapreduce

830 
yiluohan0307 来自讯飞AI开发者社区

xfyun.csdn.net · 2023-02-26 21:32:30

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——ReduceTask工作机制

ReduceTask工作机制

#hadoop #大数据 #mapreduce

2037 
howard2005 来自讯飞AI开发者社区

xfyun.csdn.net · 2022-10-09 18:07:33

大数据讲课笔记5.4 MapReduce运行模式

1. 了解MapReduce运行模式；2. 理解MapReduce性能优化策略

#mapreduce

791 
计算机秃头怪来自讯飞AI开发者社区

xfyun.csdn.net · 2021-07-15 12:40:27

大数据技术Hadoop（MapReduce&Yarn）详细又精简的总结(案例、代码、图片)齐全

MapReduce第1章 MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架1.3 MapReduce核心思想1.6 常用数据序列化类型Java类型Hadoop Writable****类型BooleanBooleanWritableByteByteWritableIntegerIntWrita

#hadoop #mapreduce

539 
sucaiwa 来自讯飞AI开发者社区

xfyun.csdn.net · 2023-05-19 08:04:40

从0开始学大数据07-为什么说MapReduce既是编程模型又是计算框架？

在Hadoop问世之前，其实已经有了分布式计算，只是那个时候的分布式计算都是专用的系统，只能专门处理某一类计算，比如进行大规模数据的排序。很显然，这样的系统无法复用到其他的大数据计算场景，每一种应用都需要开发与维护专门的系统。而Hadoop MapReduce的出现，使得大数据计算通用编程成为可能。我们只要遵循MapReduce编程模型编写业务处理逻辑代码，就可以运行在Hadoop分布式集群上，无

#大数据 #mapreduce #hadoop

155 
尚硅谷铁粉来自讯飞AI开发者社区

xfyun.csdn.net · 2022-11-14 09:23:47

大数据培训MapReduce常见错误及解决方案

3）java.lang.Exception: java.io.IOException: Illegal partition for 13926435656 (4)，说明Partition和ReduceTask个数没对上，调整ReduceTask个数。因为在MapTask的源码中，执行分区的前提是先判断ReduceNum个数是否大于1。2）Mapper中第一个输入的参数必须是LongWritable

#mapreduce #大数据 #hadoop

797 
天冬忘忧来自讯飞AI开发者社区

xfyun.csdn.net · 2024-10-01 07:00:00

Apache--Sqoop在大数据平台中的安装配置与应用实践

Sqoop作为Apache Hadoop生态系统中的一员，它提供了在Hadoop和关系型数据库之间高效传输大量数据的能力。本文将详细介绍Sqoop的基本理论、安装配置、使用方法以及在实际工作中如何利用Sqoop进行数据的导入导出。

#apache #sqoop #mapreduce +1

1455 

34 
拥抱大数据来自讯飞AI开发者社区

xfyun.csdn.net · 2023-05-04 15:36:19

全方位揭秘！大数据从0到1的完美落地之MapReduce实战案例(3)

需求+测试数据有如下订单数据订单id商品id成交金额Pdt_01222.8Pdt_0525.8Pdt_03522.8Pdt_04122.4Pdt_05722.4Pdt_01222.8现在需要求出每一个订单中成交金额最大的一笔交易分析a) 利用“订单id和成交金额”作为key，可以将map阶段读取到的所有订单数据按照id分区，按照金额排序，发送到reduceb) 在reduce端利用grouping

#大数据 #mapreduce #mr +2

111 
月望曦来自讯飞AI开发者社区

xfyun.csdn.net · 2022-11-26 11:39:15

大数据技术原理与应用第三篇大数据处理与分析 (一) MapReduce

大数据技术原理与应用第三篇大数据处理与分析 MapReduce 知识点总结与理解

#mapreduce #hadoop #大数据

1787 

2 
大摆鹅_Big Data 来自讯飞AI开发者社区

xfyun.csdn.net · 2022-11-17 13:58:58

E-MapReduce ClickHouse新手入门——阿里云实验室实验笔记

通过本次实验您获得了登录EMR集群。通过ClickHouse集群创建本地表。将数据随机写入ClickHouse集群各个节点的本地表。查看数据。使用的云产品：E-MapReduce

#mapreduce #clickhouse #阿里云

1047 
丧心病狂の程序员来自讯飞AI开发者社区

xfyun.csdn.net · 2019-11-20 19:06:41

现代数据库及大数据管理—常见问题与技术归纳

2.多结构化数据存储与组织方法2.1. memcachedmemcached是一个高性能的分布式内存对象缓存系统，用于动态web应用以减轻数据库负载。2.1.1. 掌握：数据分布式策略Memcached的服务端并没有“分布式”功能，仅包括内存存储功...

#大数据 #mapreduce #memcached

1434 

1 
爱冒险的梦啊来自讯飞AI开发者社区

xfyun.csdn.net · 2020-04-14 23:03:21

大数据挖掘分析与应用 (八) hadoop项目实战-学习网站的用户日志分析

实战项目：学习网站的用户日志分析日志分析能做什么：1.推荐2. 投放广告引流3.统计TOP N4.预测数据处理主要是两个：离线处理和在线处理采集过来的日志：1.数据不完整，不可用（脏数据）用户行为日志分析的意义：1.日志是网站的眼睛（引流，用户群体，网站的亮点）2.日志是网站的神经（网页的布局非常重要，导航是否清晰）3.日志是网站的大脑（统计最受欢迎的课程，每...

#hadoop #hdfs #mapreduce +2

614 

加载更多

标签介绍

mapreduce

——mapreduce

热门标签

人工智能

5749篇文章
spring boot

3936篇文章
java

3570篇文章
python

2952篇文章
数据库

2583篇文章
微信小程序

2224篇文章
开发语言

2092篇文章
算法

1776篇文章
数据结构

1489篇文章
大数据

1350篇文章

关于我们

联系我们（工作时间：8:30-22:00）

400-660-0108 kefu@csdn.net

京ICP备19004658号
©1999-2023北京创新乐知网络技术有限公司
网络110报警服务
中国互联网举报中心
家长监护

回到
顶部