
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、概述随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。目前遇到的表大部分在几亿到几十亿的数据量之间,并且报表数量在不断
问题详情 电脑8G,目前搭建3节点的spark集群,采用YARN模式。master分配2G,slave1分配1G,slave2分配1G。(在安装虚拟机时)exportSPARK_WORKER_MERMORY=1g (在spark-env.sh)export JAVA_HOME=/usr/local/jdk/jdk1.8.0_60(必须写)export SCALA_HOME=/usr/local/
Flink 命令行提交参数:1 参数必选 :-n,--container <arg>分配多少个yarn容器 (=taskmanager的数量)2 参数可选 :-D <arg>动态属性-d,--detached独立运行-jm,--jobManagerMemory <arg>JobManager的内存 [i
为什么需要版本控制git和svn都是程序员用来管理代码的,如果是一个人开发一个项目,版本控制这个玩意儿根本用不上,对吧。但是呢,在企业中进行开发,一个人负责一个项目的情况几乎不可能,从需求评审,UI设计,前端开发,后台开发,测试,整个过程都是需要团队来配合的。这个时候呢,版本控制都显得尤为重要啦。这篇主要是谈谈Git和SVN两者的区别。两者的区别把第一条理解到位思想到位了做起来才会有的放矢,其他几
一、前言Hive默认计算引擎时MR,为了提高计算速度,我们可以改为Tez引擎。至于为什么提高了计算速度,可以参考下图:用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到HDFS。Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能。二、安装包准备1)下载
所谓数据抽取,就是从源数据系统抽取目标数据系统需要的数据,拿到数据数据以后再根据业务需求去对数据进项处理。之前我们介绍了数据的全量抽取、增量抽取的概念。今天我们来讲讲全量抽取与增量抽取的应用。全量抽取应用较为广泛,因为我们在做业务处理分析过程中往往是需要对以前的历史数据结合分析的。但是全量抽取也不意味着就是把数据库里的所有历史数据都抽取过来,这样的方式太过于浪费资源。增量抽取也会分多种方式,具..
环境准备:系统环境:Windows 10Python:3.6.6Superset:0.27.00 Superset 简介 Superset 是一款由 Airbnb 开源的“现代化的企业级 BI(商业智能) Web 应用程序”,其通过创建和分享 dashboard,为数据分析提供了轻量级的数据查询和可视化方案。 Superset 的前端主要用到了 React 和 NVD3/D3,而后端则基于 P
随着大数据的应用越来越广泛,应用的行业也越来越低,我们每天都可以看到大数据的一些新奇的应用,从而帮助人们从中获取到真正有用的价值。很多组织或者个人都会受到大数据的分析影响,但是大数据是如何帮助人们挖掘出有价值的信息呢?下面就让我们一起来看看九个价值非常高的大数据的应用,这些都是大数据在分析应用上的关键领域:1.理解客户、满足客户服务需求大数据的应用目前在这领域是最广为人知的...
0x00 Tableau简介Tableau是一款定位于数据可视化敏捷开发和实现的商务智能展现工具,可用来实现交互的、可视化的分析和仪表盘应用。Tableau提供了体验感良好且易用的使用界面,在处理大规模、多维数据时,可以即时从不同角度看到数据呈现的规律。操作简单,大大降低了技术门槛,但其呈现出来的效果却十分优秀。本文围绕一个使用Tableau进行可视化的实例,介绍了Tableau中一些基础概念和绘
报错:## There is insufficient memory for the Java Runtime Environment to continue.# Native memory allocation (mmap) failed to map 1073741824 bytes for committing reserved memory.# Possible reasons:#The