logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

pyspark.sql之实现collect_list的排序

通过利用pyspark.sql.Window实现collect_list的排序window_ = Window.partitionBy("userid").orderBy("stay_start_time")df42= df3.join(df41,'userid','inner').withColumn('lng_lat',concat_ws(',',col('stay_lng'),col('st

#sql#数据库#database
python dataframe计算日期对应的周数或者星期几

import pandas as pdimport datetimea=['20211001','20211002','20211003','20211003','20211004']df=pd.DataFrame(a,columns=['t'])df['t2'] = pd.to_datetime(df['t'])df['day_of_week'] = pd.to_datetime(df['t']

#python
Linux 从后向前看文件内容

当日志文件log.log很长,但又要按内容从后往前查看时,可以使用如下命令:tac log.log | moretac log.log | less可以采用如下方式来记忆该命令:cat log.log | more是从前往后查看文件内容,而tac命令是cat命令的字符串反转形式,所以其执行结果也和cat执行结果相反。...

对于kafka spark Streaming出现的问题1

当生产者发送消息 出现ERROR Error when sending message to topic test with key: null, value: 36 bytes with error: (org.apache.kafka.clients.producer.internals.ErrorLoggingCallback) 而对于消费者不断循环 对于sparkStreaming

spark streaming 同时处理两个不同kafka集群的数据

如题,总是不那么完美,要处理的数据在两个不同的kafka集群里面,日子得过,问题也得解决,我们创建两个DStream,连接两个不同的kafka集群的不同topic,然后再把这两个DStream union在一起处理,代码如下:  package com.kingnet import java.util import org.apache.spar...

Kafka2MongoDB

实现了将Kafka中的数据推送给Mongodb,然后再将Mongodb中的数据推送给Es的过程。数据来源是来自txt文档中的180万条数据。准备工作:1)在Mongdb集群上创建一个数据库mydb,并创建一个空的Collection,命名为netflows[java] viewplain copy@SuppressWarni

大数据资料整理

整理了一些电子资料,放在了公众号上-大数据实践指南,刚开始搞这个,希望增加点人气。1.Mahout实践指南2.机器学习实战3.hadoop技术内幕(3本)4.hadoop权威指南(第三版和第四版)5.hive编程指南6.kafka权威指南7.python金融大数据分析8.python自然语言处理9.redis开发与运维(付磊)10.spark机器学习 第二版...

hadoop cdh安装

1.下载组件首先去CDH网站上下载hadoop组件地址:http://archive.cloudera.com/cdh5/cdh/5/注意版本号要与其他的组件CDH版本一致 2.环境配置设置主机名和用户名配置静态IP配置SSH免密登录配置JDK3.配置HADOOP1.新建用户hadoop,从root用户获取/opt文件夹的权限,所有节点都要执行...

HIVE 内存溢出常见问题

MapReduce作业运行过程中内存溢出错误分类1、Mapper/Reducer阶段JVM内存溢出(一般都是堆)1)JVM堆(Heap)内存溢出:堆内存不足时,一般会抛出如下异常:第一种:“java.lang.OutOfMemoryError:” GC overhead limit exceeded;第二种:“Error: Java heapspace”异常信息;第三种:“ru...

到底了