
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
新闻网站1. 板块2. 新闻页面3. 新用户注册4. 用户跳出案例分析每天每个页面的PV:pv是Page View,是指一个页面被所有用户的访问次数的总和,页面被访问一次就被记录一次PV每天每个页面的UV:UV是User View,是指一个页面被多少个用户访问了,一个用户访问一次是一次UV,一个用户访问多次还是一次UV新用户注册比率:当天注册用户数/当天未注册用户数...
我们在运行spark作业的时候,发现hdfs中的数据越来越多,经查看是我们spark-history文件目录下的东西,这个时候就是我们在配置的时候,没有配置spark-history文件过段时间自动删除,我们应该在spark-default.conf中加入以下参数spark.history.fs.cleaner.enabled 默认为false 这个参数指定history-s...
使用默认的foreache的性能缺陷是哪里?首先,对于每条数据,都要单独去调用一次function,task为每个数据,都要去执行一次function函数。 如果100万条数据(一个partition),调用100万次,性能比较差 另外一个非常非常重要的一点 如果每个数据,你都要去创建一个数据库连接,那么你就得建立100万次数据库连接,但是要注意的是,数据库连接的创建和...
每一个shuffle的前半部分stage的task,每个task都会创建下一个stage的task数量相同的文件,比如下一个stage会有100个task,那么当前stage每个task都会创建100份文件,会将同一个key对应的values,一定是写入同一个文件中的,也一定会将同一个key对应的values写入下一个stage,同一个task对应的文件中。 shuffle的后半部分sta...
打包打包文件:File-->>ProjectStructure -->点击Artificats-->>点击绿色加号 --> 点击JAR-->>选择 From module with dependices 点击Output Layout 看看是否没有第三方jar包,因为你使用spark
docker使用1. docker安装mysql镜像并使用# 首先去镜像仓库找到对应版本的mysql镜像地址http://hub.daocloud.io# 就会进入到如下页面,输入我们想要的镜像名# 点击版本就会有我们mysql的所有版本信息# 点击拉取,就可以有具体的仓库镜像地址# 然后使用以下命令进行拉取对应版本mysqldocker pull daocloud.io/library/mysq
# 1. 拉取python环境镜像到本地docker pull centos/python-27-centos7# 2.上传jdk和datax到环境到本地环境中[datax_docker]# lsdatax.tar.gzDockerfilejdk.tar.gz# 3. 编写相应的DockerfileFROM centos/python-27-centos7#安装jdkADD jdk.tar.gz
Spark UI入口如果是单机版本,在单机调试的时候输出信息中已经提示了UI的入口:17/02/26 13:55:48 INFO SparkEnv: Registering OutputCommitCoordinator17/02/26 13:55:49 INFO Utils: Successfully started service 'SparkUI' on port 4040.17/02/..
删除以下文件然后进行install就可以了
# 1. 拉取python环境镜像到本地docker pull centos/python-27-centos7# 2.上传jdk和datax到环境到本地环境中[datax_docker]# lsdatax.tar.gzDockerfilejdk.tar.gz# 3. 编写相应的DockerfileFROM centos/python-27-centos7#安装jdkADD jdk.tar.gz







