大数据翻身个人主页

@qq_56870570

大数据翻身

2022-09-29 17:31:05 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

spark dataframe时间戳和日期之间的转换

spark dataframe时间戳和日期之间的转换import org.apache.spark.sql.functions._日期格式转换为时间戳：val Facedf = Facedf1.withColumn("time_unix",unix_timestamp(col("time"),"yyyy-MM-dd HH:mm:ss"))时间戳格式转换为日期：val Facedf = Facedf

#spark #大数据 #big data

spark读写clickhouse

官网文档：https://clickhouse.tech/docs/zh/spark读取clickhouse数据一：这种jdbc的连接加载的是全量表数据val prop = new java.util.Propertiesprop.setProperty("user", "default")prop.setProperty("password", "123456")prop.setProperty

#spark #scala #big data

java.lang.NoClassDefFoundError: org/apache/hadoop/hive/shims/ShimLoader

遇到的问题：21/08/20 16:29:40 INFO hive.HiveImport: Loading uploaded data into HiveException in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/shims/ShimLoaderat org.apache.hadoop.hive

#hive #sqoop

spark向kafka写入数据

spark向kafka写入数据前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结，之后简单阐述Spark streaming+kafka在舆情项

#hadoop #spark #大数据

数据湖

一、什么是数据湖数据湖这一概念，最早是在2011年由CITO Research网站的CTO和作家Dan Woods首次提出。其比喻是：如果我们把数据比作大自然的水，那么各个江川河流的水未经加工，源源不断地汇聚到数据湖中。业界便对数据湖一直有着广泛而不同的理解和定义。“数据湖是一个集中化存储海量的、多个来源，多种类型数据，并可以对数据进行快速加工，分析的平台，本质上是一套先进的企业数据架构。”数据湖

#大数据 #数据分析 #数据挖掘

MobaXterm--远程连接工具

下载MobaXterm又名MobaXVT，是一款增强型远程连接工具，类似xshell。官网：https://mobaxterm.mobatek.net/官网下载地址：https://mobaxterm.mobatek.net/download-home-edition.html主要功能1. 支持各种连接SSH，Telnet，X11，RDP，VNC，FTP，SFTP，Shell，MOSH2. 支持U

到底了