logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

构建伪分布式的hbase

一、在搭建分布式的hbase之前,先安装zookeeper(1)解压zookeeper-3.4.5-cdh5.14.2文件到/opt/install/zookeeper目录下tar -zxf zookeeper-3.4.5-cdh5.14.2 -C /opt/install/zookeeper在切换到/opt/install/zookeeper/conf/目录下cd /opt/install/zo

#hbase#zookeeper#hadoop
使用Java编写Spark Streaming来做大数据处理(三)

本文主要内容为:通过spark提取hive中的数据先说一下主要的需求:从数据库种取姓名和编号,如果num为111,或者222,那编号为id,如果id为5为去除前两位,如果id为3位直接用;如果num不等于111,或者222那么编号取id,返回结果name_bianhao(1)准备SparkSession session = SparkConfig.Instance();Encoder<Str

#spark#java#hive
Python本地部署一个借口并调用

【代码】Python本地部署一个借口并调用。

#python
使用Java编写Spark Streaming来做大数据处理(四)

本次我们只要从数据的流向和类型带大家深入spark

#spark#java
使用Java编写Spark Streaming来做大数据处理(二)

本篇将从实际编程中遇到的一些问题,总结的部分经验来理解spark一、spark提交脚本的参数选择注:仅从实际常用需求阐述,并不包含所有参数(1)程序跑的太慢相信每个人最容易碰到的情况就是资源分配不够,程序迟迟运行不完,而此时只能苦苦等待(不是),所以我们在分配资源时一定要合理,个人认为如果资源充足,就多分配一些举个例子,我们知道,一般默认一个核运行两到三个task,一个task一般几百兆到一个G,

#spark#java#hadoop
VMware15许可证

VMware15许可证

文章图片
#linux#centos
Gradio学习(四)—————实现一个文件上传下载的页面

【代码】Gradio学习(四)—————实现一个文件上传下载的页面。

#python
离线数据分析平台——用户兴趣取向分析(2)kafka的应用

一、初步了解和使用kafka首先的kafka的位置cd /usr/hdp/current/kafka-broker在目录下执行以下操作(1)查看topic[root@sandbox-hdp kafka-broker]# bin/kafka-topics.sh --zookeeper sandbox-hdp.hortonworks.com:2181 --listATLAS_ENTITIESATLAS

#kafka#大数据
虚拟机安装Python3.6

下载地址:https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tgz1.下载依赖程序yum -y install zlib-devel bzip2-devel openssl-devel openssl-static ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db

#python#centos#linux
虚拟机安装Flume

1.上传安装包2.解压tar -zxf apache-flume-1.8.0-bin.tar.gz添加软连接ln -s apache-flume-1.8.0-bin flume3.配置java环境变量cd $FLUME_HOME/confmv flume-env.sh.template flume-env.sh------------------------------------------ex

#flume#hadoop
    共 19 条
  • 1
  • 2
  • 请选择