logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据平台实践之CDH6.2.1+spark3.3.0+kyuubi-1.6.0

前言:关于kyuubi的原理和功能这里不做详细的介绍,感兴趣的同学可以直通官网:https://kyuubi.readthedocs.io/en/v1.7.1-rc0/index.html。

文章图片
#大数据#spark#cloudera
Hive内嵌集合函数:size,map_keys,map_values,array_contains,sort_array等详解

0.hive官方函数解释hive官网函数大全地址:HIVE官网函数大全地址Collection FunctionsReturn TypeName(Signature)Descriptionintsize(Map<K.V>)Returns the number of elements in the map type.int...

#hive#大数据
Scala系列8:函数式编程之map,flatten,flatmap的使用详解

0.Scala函数式编程我们将来使用Spark/Flink的大量业务代码都会使用到函数式编程。下面这些事开发中常用的函数式编程。注意这些函数都是操作 Scala 集合的,一般会进行两类操作:转换操作(transformation )和行动操作(actions)(有些人喜欢叫他为聚合操作)。第一种操作类型将集合转换为另一个集合,第二种操作类型返回某些类型的值。遍历( foreach )映射( map

#scala#spark
真正让你明白Hive参数调优系列2:如何控制reduce个数与参数调优

相比map个数的控制复杂性,reduce个数的设定要相对简单多了,reduce的个数一般最后决定了输出文件的个数,二者相等,如果想多输出文件的个数(这样文件变小,但有可能程序变慢),那么可以人为增加reduce个数。如果想减少文件个数,也可以手动较少reduce个数(同样可能程序变慢)。但实际开发中,reduce的个数一般通过程序自动推定,而不人为干涉,因为人为控制的话,如果使用不当...

彻底搞懂python执行multiprocessing Pool线程池程序报错RuntimeError:reeze_support()

1.执行一个python的multiprocessing.Pool进程池程序,实现多进程程序,代码如下,结果在windows下执行报错,但是在linux和unix里面执行没有报错?from multiprocessing importPoolimporttime ,os ,randomdef worker(msg):t_start = time.time() #获取当...

python中encode和decode使用讲解与演示

1.基本语法1.encode()和decode()都是字符串的函数decode解码encode编码str ---------> str(Unicode,byte类型) ---------> str2.decode()与encode()方法可以接受参数,其声明分别为:其中的encoding是指在解码编码过程中使用的编码(此...

真正让你明白Hive参数调优系列1:控制map个数与性能调优参数

本系列几章系统地介绍了开发中Hive常见的用户配置属性(有时称为参数,变量或选项),并说明了哪些版本引入了哪些属性,常见有哪些属性的使用,哪些属性可以进行Hive调优,以及如何使用的问题。以及日常Hive开发中如何进行性能调优。1.Hive有哪些参数,如何查看这些参数Hive自带的配置属性列表封装在HiveConfJava类中,因此请参阅该HiveConf.java文件以获取Hi...

如何优雅部署OpenStack私有云II--异常处理记录

Kolla虽然已经实现了自动化,但是,安装过程依旧折腾得死去活来。特地记录了当时处理各种异常的记录,希望能够帮助到大家。

文章图片
#运维#openstack#大数据
如何优雅部署OpenStack私有云I--Kolla

本文部署了一套基于完全开源的、方便部署、各位看官姥爷可复制的一个保姆级操作文档。整体操作做了模块拆分,循序渐进,满足你的各种求知欲。

文章图片
#openstack#大数据
    共 50 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择