aidayei 个人主页

@aidayei

aidayei

2022-12-28 14:32:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Nutch抓取数据分析

由于刚开始理解错误，以为搜索索引可以作为数据挖掘的输入信息，后面才发现错了，由solr/nutch/lucene形成的只是搜索索引，只要由用户提供查询关键字，然后就可以查到该关键字来自哪一篇文档，并不是一篇文档的文字列表信息，而挖掘是需要有整篇文档的文字列表(档中所有单词的集合)

#数据分析 #lucene #数据挖掘

Nutch入门学习

因为solr生成的索引是放在本地磁盘的，为了把搜索索引放到HDFS上，所以最近看了一下搭建分布式Nutch和Nutch+solr的集成Nutch的抓取流程：对目标网站完成抓取后，在保存抓取数据目录crawl 下产生了五个子目录： crawldb，linkdb，segment

#solr #lucene #tomcat +2

hadoop集群搭建

1.hadoop入门篇，包括软件下载及配置，并保证单机和伪分布模式可以运行通过，请看hadoop官网 2.集群搭建笔者在hadoop集群搭建中，走了很多弯路，希望大家莫犯同样的错误(a)ssh免密码登陆刚开始ssh localhost 都需要密码，后来在masters机器上，将.ssh目录权限设为500，authroized_keys设为600才好ubuntu目录权限修改

#hadoop #集群 #mapreduce +2

MapReduce入门学习

云计算的核心是MapReduce，这几天在云创公司看MapReduce，刚开始搭hadoop环境时，大概看了一下MapReduce的，但只是粗略的了解了一下。现在仔细看来，发现了解的还不够，比如MapRedcue整个过程中的数据流向，如何设置运行参数，应用于哪些场合等。最重要的是如何进行MapReduce编程，只有在充分理解MapReduce过程的情况下，才能

#mapreduce #hadoop #云计算 +1

glusterfs安装配置

1.环境：主机win7-64，虚拟机ubuntu-10.04-server-64，在安装的过程中，选中装samba，这样是为了方便与主机共享和互传文件2.到gluster官方网站(http://www.gluster.org/)上下glusterfs源码，或已经编译好的二进制文件.deb3.安装glusterfs，不论是源码编译，还是选择用.deb文件来安装，官方网站上都有详细步骤。(a).有两点

#集群 #虚拟机

mahout入门学习

因为要用到云计算下的数据挖掘，所以就简单看了一下mahout配置，mahout是一个基于Map/Reduce的机器学习算法库，运行在hadoop集群上废话不多说，下面看配置过程1.到mahout官网上下载mahout-distribution-0.4.tar.gz，这个是已经编译好的包，如果下的是源码包，则需要安装maven来编译2.前面已经搭过hadoop，这里不再说，下面设置环境变

#hadoop #mapreduce #算法 +1

用glusterfs搭建分布式集群

在前面已经安装好的glusterfs基础上，用两台虚拟机test1,test2来分布式存储测试，IP分别为：192.168.30.6,192.168.30.71.首先确保这两台虚拟机执行sudo /etc/init.d/glusterd start启动正常2.用其中一台来

#集群 #windows #虚拟机

到底了