前面已经配置好了集群环境zookeeper,hadoop。 以及分布式数据库hbase。 这个阶段要开始构建数据仓库的练习。涉及到的软件: mysql, hive 。 

      背景

         

      (我以前以为数据仓库就是数据库的数据库。。)

         可见,hive本质是一个hadoop的工具。 

   mysql自然不必过多再去查询了。  需要注意的是它在centos7 的安装却有些讲究。   本来centos用yum 可以很方便的将mysql服务安装好,环境变量都不用配,但是我的网络环境不行,迫不得已只能去下载安装包!!   在ubutu上安装过mysql的tar.gz包,在windows上也可以下载zip包,但是centos上却需要下一个  bundle的包,并且还要注意版本的问题。  通过bundle安装还是第一次,所以遇到了很多的问题。 

步骤

      1. centos 7 上安装mysql:

                 下载并解压下载下来的bundle包,并采用rpm进行安装。 

                 

               修改密码策略并修改密码:

               

              mysql本身的一些操作任务命令:

                   

                   

                   

                   

                    

                    

            很多命令都是Mysql本身要求的,虽然也用了很多遍了,但是每次用的时候总还是需要查一查。  估计是没有在在课堂上将它当作古诗文而背下来的缘故,抑或是自己大脑觉得没有记得必要。。

   2.hive服务端的安装:

          2.1 解压并配置环境变量: 

                   

          2.2 在hive服务器端,将mysql 的客户端连接: mysql-connector拷贝至:hive的lib下。  注意,这个mysql-connector只需拷贝到hive的服务器端即可,因为只有服务器端需要跟mysql 通信。 hive客户端只需与服务端通信,所以没有这些步骤。 

          2.3 配置hive服务端的配置:  conf/hive-env.sh

               

               

          2.4 配置hive服务端配置:  conf/hive-site.xml

              

              

 

    3. hive客户端安装:

                3.0 客户端需要和hadoo通信。  hadoop与hive的jline包版本需统一。 可以从Hive的lib包将jline的jar包拷贝给hadoop的lib位置。 注意这里的情况: hive客户端, hadoop服务器端。 

                3.1解压并配置环境变量。

                3.2 修改conf/hive-env.sh, 新增hdoop路径。 

                3.3 配置conf/hive-site.xml:

        

   5. hive数据仓库的验证: 

               服务端:       

                   

                    

           客户端:

                     

                   

                            

Logo

权威|前沿|技术|干货|国内首个API全生命周期开发者社区

更多推荐