
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
因为solr生成的索引是放在本地磁盘的,为了把搜索索引放到HDFS上,所以最近看了一下搭建分布式Nutch和Nutch+solr的集成Nutch的抓取流程:对目标网站完成抓取后, 在保存抓取数据目录crawl 下产生了五个子目录: crawldb,linkdb,segment
1.hadoop入门篇,包括软件下载及配置,并保证单机和伪分布模式可以运行通过,请看hadoop官网 2.集群搭建笔者在hadoop集群搭建中,走了很多弯路,希望大家莫犯同样的错误(a)ssh免密码登陆刚开始ssh localhost 都需要密码,后来在masters机器上,将.ssh目录权限设为500,authroized_keys设为600才好ubuntu目录权限修改
云计算的核心是MapReduce,这几天在云创公司看MapReduce,刚开始搭hadoop环境时,大概看了一下MapReduce的,但只是粗略的了解了一下。现在仔细看来,发现了解的还不够,比如MapRedcue整个过程中的数据流向,如何设置运行参数,应用于哪些场合等。 最重要的是如何进行MapReduce编程,只有在充分理解MapReduce过程的情况下,才能
1.环境:主机win7-64,虚拟机ubuntu-10.04-server-64,在安装的过程中,选中装samba,这样是为了方便与主机共享和互传文件2.到gluster官方网站(http://www.gluster.org/)上下glusterfs源码,或已经编译好的二进制文件.deb3.安装glusterfs,不论是源码编译,还是选择用.deb文件来安装,官方网站上都有详细步骤。(a).有两点
因为要用到云计算下的数据挖掘,所以就简单看了一下mahout配置,mahout是一个基于Map/Reduce的机器学习算法库,运行在hadoop集群上废话不多说,下面看配置过程1.到mahout官网上下载mahout-distribution-0.4.tar.gz,这个是已经编译好的包,如果下的是源码包,则需要安装maven来编译2.前面已经搭过hadoop,这里不再说,下面设置环境变
在前面已经安装好的glusterfs基础上,用两台虚拟机test1,test2来分布式存储测试,IP分别为:192.168.30.6,192.168.30.71.首先确保这两台虚拟机执行sudo /etc/init.d/glusterd start启动正常2.用其中一台来







