菜鸟工程师10086 个人主页

@2202_75347029

菜鸟工程师10086

2023-06-17 21:02:15 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

SparkSQL的Shuffle分区设定及异常数据处理API（去重、缺失值处理）

在Spark SQL中，当Job中产生Shuffle时，默认的分区数（spark.sql.shuffle.partions）为200，在实际项目中要合理的设置。在允许spark程序时，查看WEB UI监控页面发现，某个Stage中有200个Task任务，也就是说RDD有200分区Partion。功能：如果数据中包含null通过dropna来进行判断，符合条件就删除这一行数据。功能：对DF的数据进行

#ajax #前端 #javascript

Spark数据结构：RDD

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面元素可并行计算的集合。可以认为RDD是分布式的列表List或数组Array，抽象的数据结构，RDD是一个抽象类Abstract Class和泛型Generic Type。

#数据结构

分布式计算概述（MapReduce && Yarn理论及部署）

分布式计算，即以分布式的形式完成数据的统计，得到想要的结果。MapReduce提供了2个编程接口：·Map：提供了”分散“的功能，由服务器分布式对数据进行处理。·Reduce：提供了”汇合（聚合）“的功能，将分布式的处理结果汇总统计。用户如需使用MapReduce框架完成自定义需求的程序开发，只需使用Java、Python等编程语言，实现MapReduce功能接口即可。（1）资源调度资源：服务器硬

#hadoop #linux #大数据

大数据导论

数据，是指一种可以被鉴别的对客观事件进行记录的记号。简单来说就是对人类行为及产生的事件的一种记录。在日常生活中所产生的信息记录都是数据，例如网购记录，地图导航记录和微信聊天记录等等都是数据。1.大数据大数据，本质上是为了解决海量数据的处理难题，狭义上（技术思维）的大数据是一类技术栈，是一种用来处理海量数据的软件技术体系。而广义上的大数据是数字化时代、信息化时代的基础（技术）支撑，以数据为生活赋能。

#大数据

Hive复杂数据类型(array类型、map类型、struct类型)

一、array类型建表语句：create table 表名(要素1 类型，要素2 类型，要素3 array)row format delimited filedsterminated by '\t' collection items terminated by ',';

#hive #hadoop #数据仓库

pySpark概述及环境搭建（local模式，Stand alone模式（非HA））

Apache Spark 是用于大规模数据（large-Scala data）处理的统一（unified）分析引擎。其特点是对任意类型的数据进行自定义计算结构化、半结构化、非结构化等各种类型的数据结构，同时也支持使用python、Java、Scala、R以及SQL语言取开发程序计算数据。

#spark #大数据 #分布式

基于Hive进行聊天数据分析案例实践

聊天平台每天都会有大量的用户在线，会出现大量的聊天数据，通过对聊天数据的统计分析，可以更好的对用户构建精准的用户画像，为用户提供更好的服务以及实现高 ROI 的平台运营推广，给公司的发展决策提供精确的数据支撑。项目将基于一个社交平台 App 的用户数据，完成相关指标的统计分析并结合 BI 工具对指标进行可视化展现。从 A 抽取数据 (E) ，进行数据转换过滤 (T) ，将结果加载到 B(L) ，就

#hive #hadoop #数据库 +1

Spark On Hive原理和配置

包含Hive、MySQL等安装配置

#spark #hive #大数据

Pyspark库以及环境配置

一、pyspark类库类库：一堆别人写好的代码，可以直接导入使用，例如Pandas就是Python的类库。框架：可以独立运行，并提供编程结构的一种软件产品，例如Spark就是一个独立的框架。PySpark是Spark官方提供的一个Python类库，内置了完全的Spark API，可以通过PySpark类库来编写Spark应用程序，并将其提交到Spark集群中运行。（1）下载PySpark库。

#spark #大数据

Hive复杂数据类型(array类型、map类型、struct类型)

一、array类型建表语句：create table 表名(要素1 类型，要素2 类型，要素3 array)row format delimited filedsterminated by '\t' collection items terminated by ',';

#hive #hadoop #数据仓库

共 15 条

请选择