logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【python】将json字符串转化为json对象

首先导入python自带的json模块import jsonloads方法将json<key,value>字符串转化为dict形式info = '{"name":"Lucy","age":22,"addr": "China"}'print(type(info))info_dict = json.loads(info)print(info_dict)print(type(info_dic

#json#python
【Spark】性能优化之数据倾斜调优

调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很

#spark#big data#scala
CPU、核心数、线程数、运行内存、超线程理解

一、CPU和运行内存的关系CPU是负责运算和处理的,内存是交换数据的,没有内存,CPU就没法接收到数据。内存是计算机与CPU进行沟通的桥梁。计算机中所有程序的运行都是在内存中进行的,因此内存的性能对计算机的影响非常大。cpu一般是银白色的薄薄的,反面有针脚的小方块:二、CPU个数、核心数、线程数对cpu的描述有这几种:“双核”、“双核四线程”、“四核”、“四核四线程”、...

Flume使用Spooling Directory Source采集文件夹数据到hdfs

一、需求说明flume监控linux上一个目录(/home/flume_data)下进入的文件,并写入hdfs的相应目录下(hdfs://master:9000/flume/spool/%Y%m%d%H%M)二、新建配置文件1、在conf下新建配置文件hdfs-logger.conf# Name the components on this agentspool-hdfs-ag...

#flume
vmWare启动虚拟机一直出现黑屏解决办法

问题图像:1、修复Lsp:开始运行cmd打开命令行窗口-----输入netsh winsock reset-----重启计算机2、更换vmWare许可证密钥

【python】将json字符串转化为json对象

首先导入python自带的json模块import jsonloads方法将json<key,value>字符串转化为dict形式info = '{"name":"Lucy","age":22,"addr": "China"}'print(type(info))info_dict = json.loads(info)print(info_dict)print(type(info_dic

#json#python
(四)presto集成kafka

一、集成之前1、启动zookeeper2、启动kafka3、查看kafka有哪些主题[root@master bin]# ./kafka-topics.sh --list --zookeeper master:2181,slaves1:2181,slaves2:2181topic_walkCountmytestmytopic4、选择一个主题进行数据写入[root@master bin]# ./ka

Could not locate executable null\bin\winutils.exe in the Hadoop binaries

目录1、问题描述:2、问题分析:3、解决办法:4、配置hadoop环境变量5、重启计算机-->完美解决1、问题描述:在windows上运行spark项目(scala)时出现:java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries....

#spark#hadoop
【python】将json字符串转化为json对象

首先导入python自带的json模块import jsonloads方法将json<key,value>字符串转化为dict形式info = '{"name":"Lucy","age":22,"addr": "China"}'print(type(info))info_dict = json.loads(info)print(info_dict)print(type(info_dic

#json#python
【Spark+Es】Spark多方案读取Es性能比较

目录一、测试环境二、测试1、代码2、输出3、用时比较一、测试环境环境:spark:2.2.0Elasticsearch:7.14.0主要maven:<dependency><groupId>org.elasticsearch</groupId><artifactId>elasticsearch-spark-20_2.11</artifactId

#spark#elasticsearch#big data
到底了