logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Hadoop安装部署&全分布式搭建

1. 完全分布式模式介绍完全分布式,指的是在真实环境下,使⽤多台机器,共同配合,来构建⼀个完整的分布式 ⽂件系统。在真实环境中,hdfs中的相关守护进程也会分布在不同的机器中,⽐如:-1. namenode守护进程尽可能的单独部署在⼀台硬件性能相对来说⽐较好的机器中。-2. 其他的每台机器上都会部署⼀个datanode守护进程,⼀般的硬件环境即可。-3. secondarynamenode守护进程

#hadoop#大数据#分布式
MapReduce的计算模型介绍

一、MapReduce核⼼思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。阅读资料Hadoop的MapReduce核⼼技术起源于⾕歌在2004年发表的关于MapReduce系统的论⽂介绍。论⽂中有这么⼀句话

#大数据#hadoop
数据挖掘介绍

本节将对数据挖掘的基本概念进行介绍,包括数据挖掘的定义、数据挖掘的价值类型和数据挖掘算法的类型等。什么是数据挖掘数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取出蕴涵在其中的,人们事先不知道的,但是具有潜在有用性的信息和知识的过程。用来进行数据挖掘的数据源必须是真实的和大量的,并且可能不完整和包括一些干扰数据项。发现的信息和知识必须是用户感兴趣和有用的。一般来讲,数据挖掘的结

#大数据
到底了