logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据安全-Kerberos】Kerberos常见问题及解决方案

javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)]可以用来帮助诊断 Kerberos 相关问题的原因并实施解决方案的指南。

文章图片
#大数据#系统安全
【大数据安全-Kerberos】Kerberos常见问题及解决方案

javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)]可以用来帮助诊断 Kerberos 相关问题的原因并实施解决方案的指南。

文章图片
#大数据#系统安全
【大数据集群搭建-Apache】Apache版本进行大数据集群各组件环境部署

将es的安装包下载并上传到5gcsp-bigdata-svr1服务器的/export/software路径下,然后进行解压,使用itcast用户来执行以下操作,将es安装包上传到5gcsp-bigdata-svr1服务器,并使用es用户执行以下命令解压。将hive-2.1.0/jdbc/目录下的hive-jdbc-2.1.0-standalone.jar 拷贝到hive-2.1.0/lib/目录。

文章图片
#大数据#apache
【大数据集群搭建-CDH-(5)CDH环境搭建】CDH版本进行大数据集群各组件环境部署-(5)CDH环境搭建

默认的方式下linux会把文件访问的时间atime做记录,文件系统在文件被访问、创建、修改等的时候记录下了文件的一些时间戳,比如:文件创建时间、最近一次修改时间和最近一次访问时间;如果提示ERROR JDBC Driver com.mysql.jdbc.Driver not found,需要上传mysql驱动包jar到/opt/cloudera/cm/lib目录下。因为系统运行的时候要访问大量文件

文章图片
#大数据#服务器
【大数据面试题大全】大数据真实面试题(持续更新)

Flink 是一个分布式的流式数据的处理引擎,对于有界和无界数据进行状态计算,提供了很多便于用户编写分布式任务的 API,有 DataSetAPI,但是新版本中已经被舍弃了,即将淘汰了,现在用的是 DataStreamAPI,还有一些 TbaleAPI,但是做的并不是十分完善,比起 SqarkSQL 还是有很大的差距,Flink 里面还提供了容错机制,FlinkCEP实时预警等功能。RDD是一个分

文章图片
#大数据#flink#spark +2
【Flink-Bug】Flink 自定义 Sink 重写 RichSinkFunction 方法时重复调用 open 的解决方案

Flink 自定义 RichinkFunction 时可能会重写 open 方法进行某些连接的初始化操作,但是会出现重复调用 open 方法的问题,如:MQ,如果重复调用 open 进行初始化操作,就会出现 group 重复的问题。解决方案:自定义并行度,让 open 方法只调用一次。

文章图片
#flink#bug#大数据
【计算机基本原理-数据结构】数据结构中树的详解

我们知道,实际应用当中,我们经常使用的是查找和排序操作,这在我们的各种管理系统、数据库系统、操作系统等当中,十分常用。数组:数组的下标寻址十分迅速,但计算机的内存是有限的,故数组的长度也是有限的,实际应用当中的数据往往十分庞大;而且无序数组的查找最坏情况需要遍历整个数组;后来人们提出了二分查找,二分查找要求数组的构造一定有序,二分法查找解决了普通数组查找复杂度过高的问题。任何一种数组无法解决的问题

文章图片
#数据结构#算法#java +1
【Spark-SparkSQL】SparkSQL 查询分区数据时会对Hive全表进行扫描(执行SparkSQL程序查询Hive数据时,开启动态资源分配导致分配资源过大,程序无法执行)

【Spark-SparkSQL】SparkSQL 查询分区数据时会对Hive全表进行扫描(执行SparkSQL程序查询Hive数据时,开启动态资源分配导致分配资源过大,程序无法执行)SparkSQL 访问 Hive 分区数据时,会先对全表进行扫描,所以一旦 Hive 单表数据量过大,会导致申请的资源过多,程序一直请求不到资源,任务挂掉。

文章图片
#hive#spark#hadoop +1
【Python-PyCharm】PyCharm 安装并创建项目(保姆级教程)

添加PyCharm文件夹里的bin目录到PATH环境变量里面,添加完成后,可以通过使用系统命令"pycharm"直接启动PyCharm软件。PyCharm专业版是功能最丰富的,与社区版相比,PYcharm专业版增加了Web开发、Python We框架、Python分析器、远程开发、支持数据库与SQL等更多高级功能。(1)启动 PyCharm,初次启动会弹出“导入PyCharm设置”,选择不导入。P

文章图片
#python#pycharm#开发语言
【Flink-Kafka-To-Hive】使用 Flink 实现 Kafka 数据写入 Hive

需求描述:1、数据从 Kafka 写入 Hive。2、相关配置存放于 Mysql 中,通过 Mysql 进行动态读取。3、此案例中的 Kafka 是进行了 Kerberos 安全认证的,如果不需要自行修改。4、Flink 集成 Kafka 写入 Hive 需要进行 checkpoint 才能落盘至 HDFS。5、先在 Hive 中创建表然后动态获取 Hive 的表结构。6、Kafka 数据为 Js

文章图片
#flink#kafka#hive
    共 28 条
  • 1
  • 2
  • 3
  • 请选择