logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spark dataframe时间戳和日期之间的转换

spark dataframe时间戳和日期之间的转换import org.apache.spark.sql.functions._日期格式转换为时间戳:val Facedf = Facedf1.withColumn("time_unix",unix_timestamp(col("time"),"yyyy-MM-dd HH:mm:ss"))时间戳格式转换为日期:val Facedf = Facedf

#spark#大数据#big data
spark读写clickhouse

官网文档:https://clickhouse.tech/docs/zh/spark读取clickhouse数据一:这种jdbc的连接加载的是全量表数据val prop = new java.util.Propertiesprop.setProperty("user", "default")prop.setProperty("password", "123456")prop.setProperty

#spark#scala#big data
java.lang.NoClassDefFoundError: org/apache/hadoop/hive/shims/ShimLoader

遇到的问题:21/08/20 16:29:40 INFO hive.HiveImport: Loading uploaded data into HiveException in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/shims/ShimLoaderat org.apache.hadoop.hive

#hive#sqoop
spark向kafka写入数据

spark向kafka写入数据前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项

#hadoop#spark#大数据
数据湖

一、什么是数据湖数据湖这一概念,最早是在2011年由CITO Research网站的CTO和作家Dan Woods首次提出。其比喻是:如果我们把数据比作大自然的水,那么各个江川河流的水未经加工,源源不断地汇聚到数据湖中。业界便对数据湖一直有着广泛而不同的理解和定义。“数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。”数据湖

#大数据#数据分析#数据挖掘
MobaXterm--远程连接工具

下载MobaXterm又名MobaXVT,是一款增强型远程连接工具,类似xshell。官网:https://mobaxterm.mobatek.net/官网下载地址:https://mobaxterm.mobatek.net/download-home-edition.html主要功能1. 支持各种连接SSH,Telnet,X11,RDP,VNC,FTP,SFTP,Shell,MOSH2. 支持U

到底了