logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据集群部署策略是什么,集群运行状态如何监控,数据怎么采集的,采集后的存储和分析策略是什么?

前言集群部署策略是什么,集群运行状态如何监控,数据怎么采集的,采集后的存储和分析策略是什么?集群部署策略是什么简单的节点部署策略因为在一般情况下,Hadoop节点需要占用的磁盘空间是最紧张的资源,所以最基本的节点部署策略,是按照磁盘空间的大小来考虑的。首先将所有Hadoop节点按照磁盘空间的要求从大到小进行排序,再将可用的Host按照剩余磁盘空间从大到小进行排序。第一步将磁盘空间需求最大的Hado

阿里FastJson2JsonRedisSerializer.java作为内部类强化RedisConfig的序列化实现

任何存储都需要序列化任何存储都需要序列化。只不过常规你在用DB一类存储的时候,这个事情DB帮你在内部已经实现了(直接把SQL带有类型的数据转换成内部序列化的格式,存储;读取时再解析出来)。而Redis并不会帮你做序列化这个事情。当你用Redis的key和value时,value对于redis来讲就是个byte array,需要把需要的数据结构转换成byte array,存储,等读取时再读出...

大数据常用的Lambda架构---实时架构处理流程与离线架构处理流程

前言对低成本,规模化的需求,促使人们开始使用分布式文件系统,例如 HDFS和基于批量数据的计算系统(MapReduce 作业),但是这种系统很难做到低延迟。用 Storm 开发的实时流处理技术,可以帮助解决延迟性的问题,但并不完美。其中的一个原因是,Storm 不支持 exactly-once 语义,因此不能保证状态数据的正确性,另外它也不支持基于事件时间的处理。有以上需求的用户,不得不在自己的应

#hive#flink#hdfs
Jsoup解析HTML页面,进行网页爬取数据时遇到的坑

问题一:当我使用doc.getElementsByClass(“class的值”)对以下带有#空格#(多值的)的块,进行获取数据的时候,发现获取不到任何数据。解决过程:使用其它的方法替换它,使用Elements 的select(String cssQuery)Elements elements = elementsRoot.get(0).select(searchbar.sear...

#java#javascript#http
ETL工具Kettle研究-3-MySQL数据导入HIVE

前言.从数据库(mysql)中读取数据写入HDFS并建hive表。在该转换中,需要配置2个DB链接(Mysql和HiveServer2),配置Hadoop集群(HDFS),配置子服务器(远程执行服务器)。本实践的元数据文件:mysql-to-hive.ktr1.数据库配置主对象树->DB连接->新建->一般->Mysql->设置(填写数据库信息)注意...

常用java使用工具类EncrypDES,实现DES算法的加解密

前言DES算法在POS、ATM、磁卡及智能卡(IC卡)、加油站、高速公路收费站等领域被广泛应用,以此来实现关键数据的保密,如信用卡持卡人的PIN的加密传输,IC卡与POS间的双向认证、金融交易数据包的MAC校验等,均用到DES算法。DES算法的原理1.所需参数key:8个字节共64位的工作密钥data:8个字节共64位的需要被加密或被解密的数据mode:DES工作方式,加密或者解密2.原理图示DE

常用docker容器与镜像的管理命令,及备份,封装,还原,打印等操作

批量停止及删除Exited的容器docker ps -a |grep "Exited" awk '{print $1 }'|xargs docker stopdocker ps -a |grep "Exited" awk '{print $1 }'|xargs docker rm批量重启Exited的容器docker restart $(docker ps -a | awk '{ print $1

基于Jenkins+SonarQube+Nosetests+Coverage的Python项目持续集成

前言本文从一个规范的Python项目目录结构开始,介绍了一个Python项目应该遵序的一些编码规范,以及与持续集成相关的工具使用。由于网上众多Python项目是使用TravisCI进行持续集成,跟使用Jenkins+SonarQube方案不一样,所以我们重新研究了如何整合这些内容。基于Jenkins进行集成基于Nosetests进行自动化测试基于coverage.py进行代码覆盖率...

ssh-keygen产生公钥与私钥对,及密钥分发,ssh远程执行常用命令方法,和如何防止SSH登录入侵或被破解

前言SSH是安全的加密协议,用于远程连接Linux服务器,默认端口是22,安全协议版本是SSH2 。SSH原理SSH(远程连接工具)连接原理:ssh服务是一个守护进程(demon),系统后台监听客户端的连接,ssh服务端的进程名为sshd,负责实时监听客户端的请求(IP 22端口),包括公共秘钥等交换等信息。ssh服务端由2部分组成: openssh(提供ssh服务)、openssl(提供加密的程

springboot利用ThreadPoolTaskExecutor多线程批量插入百万级数据

开发目的:提高百万级数据插入效率。采取方案:利用ThreadPoolTaskExecutor多线程批量插入。采用技术:springboot2.1.1+mybatisPlus3.0.6+swagger2.5.0+Lombok1.18.4+postgresql+ThreadPoolTaskExecutor等。具体细节:第一步:application-dev.properties添加...

    共 20 条
  • 1
  • 2
  • 请选择