mn_kw 个人主页

@mn_kw

mn_kw

2024-04-16 16:05:42 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

spark SQL实战

新闻网站1. 板块2. 新闻页面3. 新用户注册4. 用户跳出案例分析每天每个页面的PV:pv是Page View,是指一个页面被所有用户的访问次数的总和，页面被访问一次就被记录一次PV每天每个页面的UV:UV是User View,是指一个页面被多少个用户访问了，一个用户访问一次是一次UV,一个用户访问多次还是一次UV新用户注册比率：当天注册用户数/当天未注册用户数...

运行spark作业，hdfs文件越来越大问题解决

我们在运行spark作业的时候，发现hdfs中的数据越来越多，经查看是我们spark-history文件目录下的东西，这个时候就是我们在配置的时候，没有配置spark-history文件过段时间自动删除，我们应该在spark-default.conf中加入以下参数spark.history.fs.cleaner.enabled 默认为false 这个参数指定history-s...

spark 算子调优之使用foreachPartition优化写数据库的性能

使用默认的foreache的性能缺陷是哪里？首先，对于每条数据，都要单独去调用一次function,task为每个数据，都要去执行一次function函数。如果100万条数据（一个partition）,调用100万次，性能比较差另外一个非常非常重要的一点如果每个数据，你都要去创建一个数据库连接，那么你就得建立100万次数据库连接，但是要注意的是，数据库连接的创建和...

spark调优 shuffle调优

每一个shuffle的前半部分stage的task，每个task都会创建下一个stage的task数量相同的文件，比如下一个stage会有100个task,那么当前stage每个task都会创建100份文件，会将同一个key对应的values,一定是写入同一个文件中的，也一定会将同一个key对应的values写入下一个stage，同一个task对应的文件中。 shuffle的后半部分sta...

idea打spark jar包并提交到spark集群运行

打包打包文件：File-->>ProjectStructure -->点击Artificats-->>点击绿色加号 --> 点击JAR-->>选择 From module with dependices 点击Output Layout 看看是否没有第三方jar包，因为你使用spark

docker使用以及自定义镜像

docker使用1. docker安装mysql镜像并使用# 首先去镜像仓库找到对应版本的mysql镜像地址http://hub.daocloud.io# 就会进入到如下页面，输入我们想要的镜像名# 点击版本就会有我们mysql的所有版本信息# 点击拉取，就可以有具体的仓库镜像地址# 然后使用以下命令进行拉取对应版本mysqldocker pull daocloud.io/library/mysq

#docker

将datax做成docker镜像

# 1. 拉取python环境镜像到本地docker pull centos/python-27-centos7# 2.上传jdk和datax到环境到本地环境中[datax_docker]# lsdatax.tar.gzDockerfilejdk.tar.gz# 3. 编写相应的DockerfileFROM centos/python-27-centos7#安装jdkADD jdk.tar.gz

#docker

sparkUI详解及调优

Spark UI入口如果是单机版本，在单机调试的时候输出信息中已经提示了UI的入口：17/02/26 13:55:48 INFO SparkEnv: Registering OutputCommitCoordinator17/02/26 13:55:49 INFO Utils: Successfully started service 'SparkUI' on port 4040.17/02/..

#spark

git 合并导致idea workspace.xml报错，有合并

删除以下文件然后进行install就可以了

将datax做成docker镜像

#docker

共 11 条

请选择