logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark SQL中将 DataFrame 转为 json 格式

今天主要介绍一下如何将 Spark dataframe 的数据转成 json 数据。用到的是 scala 提供的 json 处理的 api。用过 Spark SQL 应该知道,Spark dataframe 本身有提供一个 api 可以供我们将数据转成一个 JsonArray,我们可以在 spark-shell 里头举个栗子来看一下。def main(args: Array[String]):..

#数据库#大数据#json +2
Flink实时读取Mongodb

说明:目前社区并没有开源的MongoDBSource但是Debezium 支持 MongoDB CDC[1],可以了解下:https://debezium.io/documentation/reference/connectors/mongodb.htmlhttps://debezium.io/documentation/reference/connectors/mongodb.html#mong

A read-only user or a user in a read-only database is not permitted to disable read-only mode

Sqoop同步数据时候报错:21/08/13 02:02:58 ERROR bonecp.PoolWatchThread: Error in trying to obtain a connection. Retrying in 7000msjava.sql.SQLException: A read-only user or a user in a read-only database is not

flink sql状态清理问题

备注:本文摘抄与Flink社区邮件列表,是个典型问题,特此记录,Q为提问者,A为解答Q:在使用flink sql的过程中遇到如下情况,在配置了如下选项后:val config = tableConfig.getConfiguration()config.setString(“table.exec.mini-batch.enabled”, “true”)config.setString(“table

python 爬虫抓取某电商页面的商品价格

业务需求最近想通过爬虫抓取某电商商品页的价格。页面如下:实践然后就兴冲冲的写了段代码来爬取网页数据。# 厨房卫浴href = 'http://search.gome.com.cn/search?question=%E5%8E%A8%E6%88%BF%E5%8D%AB%E6%B5%B4'res = requests.get(href)# print(res.text)soup = Beautiful

业务数据仓库指标分析

业务数据保存在mysql中,定期用Sqoop导入到HDFS的ODS层,DWD层的业务数据进行简单的数据清洗并降维(退化维度)需求1:求GMV成交总额思路:在ADS层建每日GMV总和表ads_gmv_sum_daydrop table if exists ads_gmv_sum_day;create table ads_gmv_sum_day(`dt` string COM...

#数据仓库#sqoop#数据分析 +2
c++ memcpy 的使用

一共有四种情况使用memcpy,对于使用&还是不适用什么时候使用一直很困惑,虽然现在仍未全部清除,不过初步已经了解一些。果然还是对指针不熟悉,否则会理解的更好。使用memcpy 拷贝数组int res2[5] = { 0 };int res2_dest[5] = { 1, 1,1,1,1 };for (int i = 0; i < 5; i++){...

#leetcode#c++#数据结构 +1
Spark读取Hive分区表出现Input path does not exist的问题!!

Hive读取正常,不会报错,Spark读取数据就会出现报错信息:org.apache.hadoop.mapred.InvalidInputException: Input path does not exist:hdfs://testcluster/user/hive/warehouse/....然后我们去查看一下 表数据的具体在hdfs上的存储路径,去hdfs上查看,发现文件确实不存在!...

#hive#spark#大数据 +2
spark-sql跑任务报错org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location f......

spark-SQL跑任务报错错误信息如下19/10/17 18:06:50 WARN YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as failed: container_e122_1568025476000_38356_01_000022 on host: node02. Exit status: 137. Dia..

#spark#大数据#bug +2
    共 57 条
  • 1
  • 2
  • 3
  • 6
  • 请选择