简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1、常规性能调优:分配资源、并行度。。。等2、JVM调优(Java虚拟机):JVM相关的参数,通常情况下,如果你的硬件配置、基础的JVM的配置,都ok的话,JVM通常不会造成太严重的性能问题;反而更多的是,在troubleshooting中,JVM占了很重要的地位;JVM造成线上的spark作业的运行报错,甚至失败(比如OOM)。3、shuffle调优(相当重要):spark在执行grou
视频分享链接:http://pan.baidu.com/s/1bpmLti3 密码:eaza(若有侵权通知我,将及时删除)一、文件系统的管理tips:输入命令的时候要常用tab键来补全ls查看目录信息( ls /)ls -l 等价于llpwd查看当前所处的路径cd切换目录 (cd /) ,如果不带参数则切换到用户主目录 ~mkdir
单独安装hadoop或者zookeeper可以参考这两个博客zookeeper的安装连接http://blog.csdn.net/hanlipenghanlipeng/article/details/53157525hadoop的安装地址http://blog.csdn.net/hanlipenghanlipeng/article/details/51960235hadoop的安装连
需要实现的功能:写访问spark的接口,也就是从web上输入网址就能把我们需要的信息通过提交一个job然后返回给我们json数据。成果展示:通过url请求,然后的到一个wordcount的json结果(借助的是谷歌浏览器postman插件显示的,直接在浏览器上输入网址是一样的效果)使用的关键技术:java语言编程,springmvc框架,tomcat容器,spark框架,scala相
带状态的更新是使用的updateStateByKey方法,里面传入一个函数,函数小自己写,注意需要设置checkpointpackage sparkStreaming__import org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}imp
如果使用模型的建立话请参考另一篇博客建模地址功能:接收来自kafka的数据,数据是一篇文章,来判断文章的类型,把判断的结果一并保存到hbase,并把文章建立索引(没有代码只有一个空壳,可以自己实现,以后有机会了可能会补上),代码实现:package spark.mllibimport org.apache.spark.ml.PipelineModelimport org.apache.s
从kafka里面取数据到sparkStreaming里面,然后再把数据保存到数据中关键点,不是每个数据都需要创建连接,只需要为每个分区创建一个连接就可以了下面是一个简单的例子import java.sql.{ Connection, DriverManager }import com.oracle._import org.apache.spark.streaming._import or
测试环境:scala版本为2.11.8,jdk版本为java1.7.79搭建的工程为maven工程,所需要的依赖有:<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.11</artifactId><version>2
往消息队列里面发送数据import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import java.io.IOException;import java.util.Properties;import scala.math.Num