
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
文章目录简介简介大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。对比项数据库大数据数据规模小(以MB为处理单位)大(以GB、TB、PB为处理单位)数据类型单一(结构化为主)繁多(结构化、半结构化、非结构化)模式和数据的关系先有模式后有数据先有数据后有模式,模式随数据增多不断演变处理对象数据(池塘中的鱼)预测(“鱼”,通过某些鱼判断其它种类的鱼是否存在)处理工具One
文章目录简介简介大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。对比项数据库大数据数据规模小(以MB为处理单位)大(以GB、TB、PB为处理单位)数据类型单一(结构化为主)繁多(结构化、半结构化、非结构化)模式和数据的关系先有模式后有数据先有数据后有模式,模式随数据增多不断演变处理对象数据(池塘中的鱼)预测(“鱼”,通过某些鱼判断其它种类的鱼是否存在)处理工具One
文章目录问题描述历史经验排查步骤解决方法问题描述Oracle通过kettle工具同步数据到Gauss报IO错误。历史经验应用侧获取连接后未及时关闭(DriverManager.gerConnection后未调用con.close),下次再使用连接时已被数据库侧清除,用户感知到IO错误。使用kettle表输入/输出方式同步数据:原理是开启一个事务,一次执行1000个insert,效率低,占用网络资源
文章目录一、基本概念1.1 Hive和数据库比较1.2 Hive 安装1.3 Hive 启动一、基本概念什么是 HiveHive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层的实现是
文章目录一、简介一、简介Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark 历史Spark 虽然有自己的资源调度框架,但实际中常用 Yarn 来进行统一资源管理。Spark 框架Spark内置模块Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient D
文章目录
文章目录一、简介一、简介
文章目录一、安装1.1 准备1.2 配置1.3 启动二、操作2.1 前端页面2.2 HDFS Shell 操作2.3 HDFS 客户端一、安装1.1 准备准备软件hadoop-3.1.4.tar.gzjdk-8u271-linux-x64.tar.gz虚拟机规划主机名IPNNDNRMNMbigdata01192.168.1.101YYYbigdata02192.168.1.102YYYbigdat
一、准备1.1 集群规划技术选型位置框架数据采集传输Flume,Kafka,Sqoop ,Logstash,DataX,数据存储MySql,HDFS,HBase,Redis,MongoDB数据计算Hive,Tez, Spark, Flink数据查询Presto,Druid ,Impala,Kylin数据可视化Echarts、Superset、Tableau、QuickBI、DataV任务调度Azk