logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据之Hadoop-MapReduce(1)

第1章 MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.2 MapReduce优缺点1.2.1 优点MapReduce 易于编程它简单的实现一些接口,就可

#hadoop#mapreduce#big data
大数据之Hadoop - MapReduce(4)

1 Hadoop企业优化1.1 MapReduce 跑的慢的原因MapReduce 程序效率的瓶颈在于两点:1 计算机性能:CPU、内存、磁盘健康、网络2 I/O 操作优化(1)数据倾斜(2)Map和Reduce数设置不合理(3)Map运行时间太长,导致Reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)Spill次数过多(7)Merge次数过多等。1.2 MapReduce优

#hadoop#mapreduce#big data
大数据之Spark(2)- Idea实现WordCount

Spark Shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包的依赖。1 编写WordCount程序1)创建一个Maven项目WordCount并导入依赖<dependencies><dependency><groupId>org

#big data#spark#intellij-idea
大数据之Spark(2)- Idea实现WordCount

Spark Shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包的依赖。1 编写WordCount程序1)创建一个Maven项目WordCount并导入依赖<dependencies><dependency><groupId>org

#big data#spark#intellij-idea
大数据之Spark(5)- SparkSql

1 Spark SQL概述1.1 什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。

#spark#big data#大数据
话单数据仓库搭建(2)- 数据仓库ODS及DWD层

1 数仓分层概念1.1 为什么要分层1、把复杂问题简单化将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。2、清晰数据结构每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。3、减少重复开发规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加

#数据仓库#big data#数据库
话单数据仓库搭建(3)- 数据仓库DWS及ADS层

1 活跃用户1.1 DWS层目标:统计当日、当周、当月活跃用户活跃用户指的是在统计周期内由过通话记录的用户1.1.1 每日活跃用户明细1)建表语句hive (calllogs)>drop table if exists dws_au_detail_day;create table dws_au_detail_day(sys_id string,service_name string,home

#数据仓库#hive#hadoop
CentOS 7如何搭建本地时间同步服务器

1、服务器(ip:192.168.56.118)安装ntp# yum install ntp -y编辑配置文件[root@localhost ansible-k8s]# cat /etc/ntp.conf# For more information about this file, see the man pages# ntp.conf(5), ntp_acc(5), ntp_auth(5), n

#centos#linux#服务器
Ansible自动化部署高可用K8S集群

1.1 Ansible介绍Ansible 是一种IT自动化工具。它可以配置系统,部署软件以及协调更高级的IT任务,例如持续部署,滚动更新。Ansible 适用于管理企业IT基础设施,从具有少数主机的小规模到数千个实例的企业环境。Ansible 也是一种简单的自动化语言,可以完美地描述IT应用程序基础结构。具备以下三个特点:简单:减少学习成本强大:协调应用程序生命周期无代理:可预测,可靠和安全使用文

#自动化#服务器#k8s
Kafka(4)- kafka管理监控系统 CMAK

kafka管理监控系统 CMAK1 cmak部署1.1 软件下载kafka-manager 工具目前改名为cmak,下载地址为:https://github.com/yahoo/CMAK/releases/tag/3.0.0.5现在下载最新版本的cmak文件:cmak-3.0.0.5.zip1.2 安装jdk11一定要安装jdk11,否则cmak启动的时候会报错2021-11-28 20:43:0

#kafka#java#分布式
    共 11 条
  • 1
  • 2
  • 请选择