logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark综合学习笔记(二十五)SparkSQL实战7-电影数据分析

学习致谢https://www.bilibili.com/video/BV1Xz4y1m7cv?p=63需求:对电影评分数据进行统计分析,分别使用DSL编程和5QL编程,获取电影平均分Top10,要求电影的评分次数大于200代码实现package sqlimport java.util.Propertiesimport org.apache.spark.sql.{DataFrame, Datase

#spark#scala#kafka
实际使用java来编写和使用spark的几个例子

一、使用Java语言开发sparkstreaming完成WordCountpackage Test;import org.apache.spark.SparkConf;import org.apache.spark.streaming.Durations;import org.apache.spark.streaming.api.java.JavaPairDStream;import org.ap

#spark#java#scala
构建伪分布式的hbase

一、在搭建分布式的hbase之前,先安装zookeeper(1)解压zookeeper-3.4.5-cdh5.14.2文件到/opt/install/zookeeper目录下tar -zxf zookeeper-3.4.5-cdh5.14.2 -C /opt/install/zookeeper在切换到/opt/install/zookeeper/conf/目录下cd /opt/install/zo

#hbase#zookeeper#hadoop
使用Java编写Spark Streaming来做大数据处理(三)

本文主要内容为:通过spark提取hive中的数据先说一下主要的需求:从数据库种取姓名和编号,如果num为111,或者222,那编号为id,如果id为5为去除前两位,如果id为3位直接用;如果num不等于111,或者222那么编号取id,返回结果name_bianhao(1)准备SparkSession session = SparkConfig.Instance();Encoder<Str

#spark#java#hive
Python本地部署一个借口并调用

【代码】Python本地部署一个借口并调用。

#python
使用Java编写Spark Streaming来做大数据处理(四)

本次我们只要从数据的流向和类型带大家深入spark

#spark#java
使用Java编写Spark Streaming来做大数据处理(二)

本篇将从实际编程中遇到的一些问题,总结的部分经验来理解spark一、spark提交脚本的参数选择注:仅从实际常用需求阐述,并不包含所有参数(1)程序跑的太慢相信每个人最容易碰到的情况就是资源分配不够,程序迟迟运行不完,而此时只能苦苦等待(不是),所以我们在分配资源时一定要合理,个人认为如果资源充足,就多分配一些举个例子,我们知道,一般默认一个核运行两到三个task,一个task一般几百兆到一个G,

#spark#java#hadoop
VMware15许可证

VMware15许可证

文章图片
#linux#centos
Gradio学习(四)—————实现一个文件上传下载的页面

【代码】Gradio学习(四)—————实现一个文件上传下载的页面。

#python
离线数据分析平台——用户兴趣取向分析(2)kafka的应用

一、初步了解和使用kafka首先的kafka的位置cd /usr/hdp/current/kafka-broker在目录下执行以下操作(1)查看topic[root@sandbox-hdp kafka-broker]# bin/kafka-topics.sh --zookeeper sandbox-hdp.hortonworks.com:2181 --listATLAS_ENTITIESATLAS

#kafka#大数据
    共 21 条
  • 1
  • 2
  • 3
  • 请选择