简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、安装前准备设置HOSTvi /etc/hosts关闭防火墙sudo systemctl disable firewalldsudo systemctl stop firewalld设置SELinuxvi /etc/selinux/config将SELINUX=enforcing 改为SELINUX=permissive,然后重启服务器,或者执行下面命令:setenforce 0开启NTP服务#
一般在cdh上配置,如图:具体的几个配置项如下:hive.server2.support.dynamic.service.discovery=truehive.server2.zookeeper.namespace=hiveserver2_zkhive.zookeeper.quorum=test-hadoop-pc06:2181,test-hadoop-pc07:2181,test-hadoop-
前提:操作机已经通过kinit -kt方式认证一、生产者1、创建jaas.conf,向其添加内容:KafkaClient{com.sun.security.auth.module.Krb5LoginModule requireduseTicketCache=true;};2、将jaas.conf添加到环境变量export KAFKA_OPTS="-Djava.security.auth.login
本地执行spark structured streaming 报错,程序代码:def main(args: Array[String]): Unit = {val spark = SparkSession.builder.master("local[2]").appName("sparkStream2hudi").getOrCreate()//消费kafkaimport spark.implici
我们在做实时数据开发的时候,通常要用spark、flink去消费kafka的数据,拿到数据流后会和外部数据库(Hbase、MySQL等)进行维表关联来把数据流打宽。当然了,有些外部数据库不只是存储维度数据,也会有很多事实数据,并且这些数据更新频繁,数据量巨大,但是我们的Flink流也会去实时的join这些巨大的事实表,这就需要选择一个合适的外部数据库作为支持,这个外部数据库一定要满足海量数据高效的
在Flink官网中可以看到flink接收kafka数据的简单示例程序Properties properties = new Properties();properties.setProperty("bootstrap.servers", "localhost:9092");// only required for Kafka 0.8properties.setProperty("zoo...
现在是2020年9月,由于目前还没有Spark整合ClickHouse的连接器,所以通过spark读写ClickHouse的方式只能是jdbc了,另外github上有个连接器,需要自己打包发布,感兴趣的可以研究下,地址https://github.com/wangxiaojing/spark-clickhouse以下是spark读写clickHouse的代码:/*读取*/def select(sp
我的phonix jdbc url连接参数值如下jdbc:phoenix:prod-bigdata-pc10:2181/hbase-unsecure可见我在url中已经指定了zk连接端口和hbase节点等信息,由于我是hdp环境,该环境的hbase在zk上建立的根节点为/hbase-unsecure,所以需要指定实际值,但是实际建立phonix连接时仍旧会到zk上找默认的/hbase节点,并且也发
flinkSQL消费kafka实时写入hive表
public class JavaConsumerTool {/*** 创建消费者* @return*/public static KafkaConsumer<String, String> getConsumer(){Properties props = new Properties();props.put("bootstrap.servers", "127.0.0.1:9092")