logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据面试题大全】大数据真实面试题(持续更新)

Flink 是一个分布式的流式数据的处理引擎,对于有界和无界数据进行状态计算,提供了很多便于用户编写分布式任务的 API,有 DataSetAPI,但是新版本中已经被舍弃了,即将淘汰了,现在用的是 DataStreamAPI,还有一些 TbaleAPI,但是做的并不是十分完善,比起 SqarkSQL 还是有很大的差距,Flink 里面还提供了容错机制,FlinkCEP实时预警等功能。RDD是一个分

文章图片
#大数据#flink#spark +2
【Python-PyCharm】PyCharm 安装并创建项目(保姆级教程)

添加PyCharm文件夹里的bin目录到PATH环境变量里面,添加完成后,可以通过使用系统命令"pycharm"直接启动PyCharm软件。PyCharm专业版是功能最丰富的,与社区版相比,PYcharm专业版增加了Web开发、Python We框架、Python分析器、远程开发、支持数据库与SQL等更多高级功能。(1)启动 PyCharm,初次启动会弹出“导入PyCharm设置”,选择不导入。P

文章图片
#python#pycharm#开发语言
【Spark-SparkSQL】SparkSQL 查询分区数据时会对Hive全表进行扫描(执行SparkSQL程序查询Hive数据时,开启动态资源分配导致分配资源过大,程序无法执行)

【Spark-SparkSQL】SparkSQL 查询分区数据时会对Hive全表进行扫描(执行SparkSQL程序查询Hive数据时,开启动态资源分配导致分配资源过大,程序无法执行)SparkSQL 访问 Hive 分区数据时,会先对全表进行扫描,所以一旦 Hive 单表数据量过大,会导致申请的资源过多,程序一直请求不到资源,任务挂掉。

文章图片
#hive#spark#hadoop +1
【Flink-Kafka-To-Hive】使用 Flink 实现 Kafka 数据写入 Hive

需求描述:1、数据从 Kafka 写入 Hive。2、相关配置存放于 Mysql 中,通过 Mysql 进行动态读取。3、此案例中的 Kafka 是进行了 Kerberos 安全认证的,如果不需要自行修改。4、Flink 集成 Kafka 写入 Hive 需要进行 checkpoint 才能落盘至 HDFS。5、先在 Hive 中创建表然后动态获取 Hive 的表结构。6、Kafka 数据为 Js

文章图片
#flink#kafka#hive
【Flink-1.17-教程】-【二】Flink 集群搭建、Flink 部署、Flink 运行模式

YARN 上部署的过程是:客户端把 Flink 应用提交给 Yarn 的 ResourceManager,Yarn 的 ResourceManager 会 向 Yarn 的 NodeManager 申 请 容 器 。 在 这 些 容 器 上 , Flink 会 部 署 JobManager 和 TaskManager 的实例,从而启动集群。Flink 会根据运行在 JobManger 上的作业所需

文章图片
#flink#大数据
【大数据面试题大全】大数据真实面试题(持续更新)

Flink 是一个分布式的流式数据的处理引擎,对于有界和无界数据进行状态计算,提供了很多便于用户编写分布式任务的 API,有 DataSetAPI,但是新版本中已经被舍弃了,即将淘汰了,现在用的是 DataStreamAPI,还有一些 TbaleAPI,但是做的并不是十分完善,比起 SqarkSQL 还是有很大的差距,Flink 里面还提供了容错机制,FlinkCEP实时预警等功能。RDD是一个分

文章图片
#大数据#flink#spark +2
都 2024 年了!程序员的到底出路在哪里!?继续卷技术?晋升管理层?还是转业?

除了上述框架,大数据生态系统还包括其他技术和工具,如NoSQL数据库(如MongoDB、Cassandra)、数据仓库(如Amazon Redshift、Google BigQuery)、数据流处理工具(如Kafka、Storm)以及数据可视化工具(如Tableau、PowerBI)等。考公务员是程序员多元化职业发展路径中的一种选择,它提供了稳定的工作环境和相对固定的工作时间,但同时也可能意味着更

【Git-Git克隆代码与提交代码】使用Git命令方式拉取代码至本地以及上传代码到云端

6、当SSH密钥绑定成功后,您可以在客户端对您有访问权限的仓库进行一次 SSH-clone 操作,如果克隆成功了,则说明密钥设置成功(如果是第一次使用 ssh 克隆仓库到本地,客户端会弹出。2、当设置好 HTTPS 密码后,您可以在客户端对您有访问权限的仓库进行一次 HTTPS-clone 操作,会弹出对话框要求你输入账号、密码,填写后克隆成功,则说明密码设置成功。3、登录您的代码托管服务首页(注

文章图片
#git#github#ssh +1
【Python-PyCharm】PyCharm 安装并创建项目(保姆级教程)

添加PyCharm文件夹里的bin目录到PATH环境变量里面,添加完成后,可以通过使用系统命令"pycharm"直接启动PyCharm软件。PyCharm专业版是功能最丰富的,与社区版相比,PYcharm专业版增加了Web开发、Python We框架、Python分析器、远程开发、支持数据库与SQL等更多高级功能。(1)启动 PyCharm,初次启动会弹出“导入PyCharm设置”,选择不导入。P

文章图片
#python#pycharm#开发语言
【Hadoop-OBS-Hive】利用华为云存储对象 OBS 作为两个集群的中间栈 load 文件到 Hive

本次需求:想将一个集群上的 csv 文件 load 到另一个集群的 Hive 表中,由于两个集群的网络不通,所以利用华为云存储对象 OBS 作为中间栈,从而实现。

文章图片
#hadoop#hive#华为云
到底了