logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spark job提交执行流程

standalone集群启动后worker向master注册信息,通过spark-submit提交任务时,在任务提交节点或Client启动driver,在driver创建并初始化sparkContext对象,包含DAGScheduler和TaskScheduler,TaskScheduler与Master节点通讯申请注册Application,Master节点接收到Application的注册请求

#spark
spark on yarn配置

在安装好spark后修改spark-env.sh 若没有 将模板文件改名为此名称在spark安装目录下的conf找到spark-env.sh添加HADOOP_HOME和HADOOP_CONF_DIR让其加载yarn-site.xml文件配置修改spark-defaults.conf同在conf文件夹下找到spark-defaults.conf.template文件改名spark-defaults.

#yarn#spark
拍拍贷数据分析-逾期情况分析

数据背景所提供数据来自拍拍贷真实业务数据,从2015-01-01到2017-01-30的所有信用标的10%sample样本。数据集包含LC.csv(标的特征表数据)和LP.csv(标的还款计划和还款记录表)数据。详情如下:数据字典1.LC.csv 数据大小:50.7MBLC (Loan Characteristics) 表为标的特征表,每支标一条记录。共有21个字段,包括一个主键(listingi

文章图片
#数据分析#python
什么是结构化数据?非结构化数据?半结构化数据?

结构化数据结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。如mysql数据库中的数据、csv文件非结构化数据非结构化数据是指信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织。非结构化数据一般指大家文字型数据,但是数据中有很多诸如时间,数字等的信息。相对于传统的在数据库中或者标记

什么是结构化数据?非结构化数据?半结构化数据?

结构化数据结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。如mysql数据库中的数据、csv文件非结构化数据非结构化数据是指信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织。非结构化数据一般指大家文字型数据,但是数据中有很多诸如时间,数字等的信息。相对于传统的在数据库中或者标记

到底了