大数据平台CDH集群数据迁移的常见问题与解决方案

如何进行数据迁移一般而言，数据迁移常用于集群之间，但集群之间往往会出现cdh版本不同，那么如何查询集群的cdh版本呢？可以使用命令 hadoop version 查看不同版本的cdh的数据迁移方式也不一样，下面来介绍下相同版本和不同版本cdh 的数据迁移方式：注意: ip1–源集群，ip2–目标集群一、相同版本使用命令hadoop distcp hdfs://ip1:host/s...

BlankDC

2101人浏览 · 2019-11-07 21:00:55

BlankDC · 2019-11-07 21:00:55 发布

如何进行数据迁移

一般而言，数据迁移常用于集群之间，但集群之间往往会出现cdh版本不同，那么如何查询集群的cdh版本呢？
可以使用命令 hadoop version 查看

不同版本的cdh的数据迁移方式也不一样，下面来介绍下相同版本和不同版本cdh 的数据迁移方式：
注意: ip1–源集群，ip2–目标集群
一、相同版本

使用命令

hadoop distcp hdfs://ip1:host/source hdfs://ip2:host/source

二、不同版本

使用hftp协议

hadoop distcp hftp://ip1:host/source hdfs://ip2:host/source

使用参数-skipcrccheck -update

hadoop distcp -skipcrccheck -update hdfs://ip1:host/source hdfs://ip2:host/source

数据迁移前，应查看文件是否存在，否则会报file don’t exist错误。

hadoop fs -ls /source

记得数据迁移后，也应该查看文件是否迁移完成。

impala建表

上面只是进行数据文件的迁移，但是要显示数据，需要创建hive表，一般而言与原表格式一致，记得设置hive表格式，否则会出现数据格式乱码问题，建表格式如下：

create table if not exists user(
id string comment 'openId', 
phone string comment '电话', 
user_name string comment '用户名', 
sex string comment '性别,直接存男女', 
certificate_no string comment '身份证',  
create_time string 
)
row format delimited fields terminated by '\t' NULL DEFINED AS '' stored as textfile;

常见错误与解决方案

数据乱码问题
乱码问题只有两种情况：
（1）建表未指定格式textfile或parquet
（2）操作工具未设置字符编码，如我用Xshell，需要设置Xshell的字符编码utf-8
版本不一致，会报错Check-Sum，只要有这个，就肯定是版本不一致，怎么解决，请参考上面
文件传输慢：一般数据量小的文件传输，有可能是文件数/目录数过多，只要控制好集群的磁盘就可以了。使用清除缓存命令sync和echo 3 > /proc/sys/vm/drop_cacahes
快速复制表结构：复制好之后，保存到一个文件中，使用vim编辑器，末行模式下： :1,$s/|/ /g快速去除符号|

亚马逊云科技技术品牌专区

更多推荐

企业物联网平台如何选择？

亚马逊云科技技术品牌专区

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

从华为的MQTT到TdEngineRPC，解读物联网时代的分布式

今天中秋节，笔者首先祝各位读者们中秋快乐，之所以在今天这个团圆节来谈分布式的话题，就是要聊聊物联网是如何通过MQTT连接各类终端，如何通过RPC整合各种数据的。下面就通过代码+动图的方式来解读一下华为LiteOS的MQTT与TD的RPC。MQTT协议MQTT是一个客户机服务器发布/订阅消息传输协议。它重量轻、开放、简单、易于实现。这些特性使其非常适合在物联网的低带宽、...