花和尚也有春天个人主页

@weixin_38750084

花和尚也有春天

2022-07-08 16:53:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

hive：与es交互：hive on es（外联表）

hive整合es，通过建外联表做映射，数据实际存储在es。注意：hive建内部表时数据存储在hdfs，与es建外联表时，数据存储在es里。创建表语句demo：CREATE EXTERNAL TABLE `es.test`(`id` string,`keyword` string,`tenderId` bigint,`update_time` string, ...

#hive

hadoop：分布式批量处理脚本xcall.sh

#!/bin/bashparams=$@i=1for((i=1 ;i <=4 ;i=$i+1 ));doecho ==========s$i $params==========ssh s$i "source /etc/profile;$params"done

#hadoop #linux

hadoop：Win10本地环境配置hadoop（附wordcount实例） org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/

下载 hadoop包后先安装本地环境，配置环境变量：解压hadoop-2.6.0.tar.gz变量名 HADOOP_HOME 路径：E:\spark\anzhuangsoft\hadoop-2.6.0path中：%HADOOP_HOME%\lib和%HADOOP_HOME%\bin验证：IDEA中跑wordcount程序：建...

#hadoop

hadoop：MapReduce （Writable）输出结果中文乱码解决

hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式，但是对于中文的输出window系统默认的是GBK，有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时，输出的结果为乱码，只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为非常常见的需求。自定义 TextOutputFormat.class 子类TextOu

#hadoop #mr

hadoop：hdfs：为什么不适合大量小文件的存储

（1）HDFS不适合大量小文件的存储，因namenode将文件系统的元数据存放在内存中，因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放的文件数目过多的话会占用很大的内存（2）HDFS适用于高吞吐量，而不适合低时间延迟的访问。如果同时存入大量的小文件会花费很长的时间（3）流式读取的方式，不适合多用户写入，以及任意位置写入。如果访

#hadoop #hdfs

hadoop：三种环境运行spark PI

local:bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master local \./lib/spark-examples-1.5.1-hadoop2.4.0.jarbin/spark-submit \--class org.apache.spark.examples.SparkPi \--e...

#spark #yarn

hadoop：JournalNode的作用

NameNode之间共享数据（NFS 、Quorum Journal Node（用得多））两个NameNode为了数据同步，会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时，会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息，并且一直监控edit log的变化，把变化应

#hadoop

sql：hive：mysql：函数：NVL、NVL2、NULLIF，IFNULL、Coalesce

NVL：第一个参数为空(注意这里是指null，不是空串)那么显示第二个参数的值，如果第一个参数的值不为空，则显示第一个参数本来的值select NVL(age,9999999 ) from tmp.testage223999999977...mysql中没有nvl ()函数,使用ifnull代替SELECT ifnull(valuess,'11111') a FROM test_regexp;NV

hive：函数：size(数组字段)获取array长度和 length(字段)获取字符串长度

获取字符串长度：length(字段)字符串转数组：collect_list 列转行可得到数据，或split()某个字段得到数组获取数组长度：size(数组字段)参考sql：set edate=2019-07-21SET company=***;SET recomrecords=ods.ods_${hiveconf:company_RecomRecords;SET empl...

#hive

sql：主键（primary key）和唯一索引（unique index）区别

主键一定是唯一性索引，唯一性索引并不一定就是主键。所谓主键就是能够唯一标识表中某一行的属性或属性组，一个表只能有一个主键，但可以有多个候选索引。因为主键可以唯一标识某一行记录，所以可以确保执行数据更新、删除的时候不会出现张冠李戴的错误。主键除了上述作用外，常常与外键构成参照完整性约束，防止出现数据不一致。数据库在设计时，主键起到了很重要的作用。主键可以保证记录的唯一和主键域非空，数...

#oracle

共 59 条

请选择