韩利鹏个人主页

@HANLIPENGHANLIPENG

韩利鹏

2023-04-21 15:39:16 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

spark性能调优都有哪些方法

1、常规性能调优：分配资源、并行度。。。等2、JVM调优（Java虚拟机）：JVM相关的参数，通常情况下，如果你的硬件配置、基础的JVM的配置，都ok的话，JVM通常不会造成太严重的性能问题；反而更多的是，在troubleshooting中，JVM占了很重要的地位；JVM造成线上的spark作业的运行报错，甚至失败（比如OOM）。3、shuffle调优（相当重要）：spark在执行grou

#spark

Linux常用命令（附视频教学）

视频分享链接：http://pan.baidu.com/s/1bpmLti3 密码：eaza（若有侵权通知我，将及时删除）一、文件系统的管理tips:输入命令的时候要常用tab键来补全ls查看目录信息（ ls /）ls -l 等价于llpwd查看当前所处的路径cd切换目录 (cd /) ,如果不带参数则切换到用户主目录 ~mkdir

zookeeper和hadoop连接

单独安装hadoop或者zookeeper可以参考这两个博客zookeeper的安装连接http://blog.csdn.net/hanlipenghanlipeng/article/details/53157525hadoop的安装地址http://blog.csdn.net/hanlipenghanlipeng/article/details/51960235hadoop的安装连

#hadoop #zookeeper

spark与spring集成做web接口

需要实现的功能：写访问spark的接口，也就是从web上输入网址就能把我们需要的信息通过提交一个job然后返回给我们json数据。成果展示：通过url请求，然后的到一个wordcount的json结果（借助的是谷歌浏览器postman插件显示的，直接在浏览器上输入网址是一样的效果）使用的关键技术：java语言编程，springmvc框架，tomcat容器，spark框架，scala相

#spark #spring

sparkStreaming带状态更新（scala）

带状态的更新是使用的updateStateByKey方法，里面传入一个函数，函数小自己写，注意需要设置checkpointpackage sparkStreaming__import org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}imp

#kafka #spark #scala

sparkStreaming里面使用文本分析模型（2.0.1）

如果使用模型的建立话请参考另一篇博客建模地址功能：接收来自kafka的数据，数据是一篇文章，来判断文章的类型，把判断的结果一并保存到hbase，并把文章建立索引（没有代码只有一个空壳，可以自己实现，以后有机会了可能会补上），代码实现：package spark.mllibimport org.apache.spark.ml.PipelineModelimport org.apache.s

sparkstreaming里面的数据保存到数据里面

从kafka里面取数据到sparkStreaming里面，然后再把数据保存到数据中关键点，不是每个数据都需要创建连接，只需要为每个分区创建一个连接就可以了下面是一个简单的例子import java.sql.{ Connection, DriverManager }import com.oracle._import org.apache.spark.streaming._import or

#spark

spark与kafka连接测试

测试环境：scala版本为2.11.8,jdk版本为java1.7.79搭建的工程为maven工程，所需要的依赖有：<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.11</artifactId><version>2

#kafka #spark #scala

kafka的数据发送和接收java_API

往消息队列里面发送数据import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import java.io.IOException;import java.util.Properties;import scala.math.Num

#kafka #java

到底了