
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
hive整合es,通过建外联表做映射,数据实际存储在es。注意:hive建内部表时数据存储在hdfs,与es建外联表时,数据存储在es里。创建表语句demo:CREATE EXTERNAL TABLE `es.test`(`id` string,`keyword` string,`tenderId` bigint,`update_time` string, ...
#!/bin/bashparams=$@i=1for((i=1 ;i <=4 ;i=$i+1 ));doecho ==========s$i $params==========ssh s$i "source /etc/profile;$params"done
下载 hadoop包后先安装本地环境,配置环境变量:解压hadoop-2.6.0.tar.gz变量名 HADOOP_HOME 路径:E:\spark\anzhuangsoft\hadoop-2.6.0path中:%HADOOP_HOME%\lib和%HADOOP_HOME%\bin验证:IDEA中跑wordcount程序:建...
hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为非常常见的需求。自定义 TextOutputFormat.class 子类TextOu
(1)HDFS不适合大量小文件的存储,因namenode将文件系统的元数据存放在内存中,因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放的文件数目过多的话会占用很大的内存(2)HDFS适用于高吞吐量,而不适合低时间延迟的访问。如果同时存入大量的小文件会花费很长的时间(3) 流式读取的方式,不适合多用户写入,以及任意位置写入。如果访
local:bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master local \./lib/spark-examples-1.5.1-hadoop2.4.0.jarbin/spark-submit \--class org.apache.spark.examples.SparkPi \--e...
NameNode之间共享数据(NFS 、Quorum Journal Node(用得多))两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应
NVL:第一个参数为空(注意这里是指null,不是空串)那么显示第二个参数的值,如果第一个参数的值不为空,则显示第一个参数本来的值select NVL(age,9999999 ) from tmp.testage223999999977...mysql中没有nvl ()函数,使用ifnull代替SELECT ifnull(valuess,'11111') a FROM test_regexp;NV
获取字符串长度:length(字段)字符串转数组:collect_list 列转行可得到数据,或split()某个字段得到数组获取数组长度:size(数组字段)参考sql:set edate=2019-07-21SET company=***;SET recomrecords=ods.ods_${hiveconf:company_RecomRecords;SET empl...
主键一定是唯一性索引,唯一性索引并不一定就是主键。所谓主键就是能够唯一标识表中某一行的属性或属性组,一个表只能有一个主键,但可以有多个候选索引。因为主键可以唯一标识某一行记录,所以可以确保执行数据更新、删除的时候不会出现张冠李戴的错误。主键除了上述作用外,常常与外键构成参照完整性约束,防止出现数据不一致。数据库在设计时,主键起到了很重要的作用。主键可以保证记录的唯一和主键域非空,数...







