nutch+hadoop 配置使用

摘要:
也就是说,解压缩/filesystemhadoop/local/crowl的文件系统存储点,并将索引放置到search/home(nutchuser的主目录)。如果您使用系统用户,conf/hadoop-env.sh必须配置JAVA_HOME,配置主设备和从设备的ssh,并且文件内容是默认的localhost(如果是分布式的)。

nutch+hadoop 配置使用

配置nutch+hadoop 
1,下载nutch。如果不需要特别开发hadoop,则不需要下载hadoop。因为nutch里面带了hadoop core包以及相关配置 
2,建立目录(根据自己喜好) 
/nutch 
/search       (nutch installation goes here) nutch安装到这里,也就是解压到这里 
/filesystem hadoop的文件系统存放点 
/local /crawl后放置索引用来search用的 
/home     (nutch user's home directory)  如果你用系统用户,这个基本没用 
/tomcat 启动nutch.war用来search索引的app 

3,conf/hadoop-env.sh   一定要配置JAVA_HOME,否则系统起不来 
4,配置master和slave的ssh,否则每次都要输入passwd 
ssh-keygen -t rsa 
然后回车即可 
cp id_rsa.pub authorized_keys 
(copy到其它的slave上)scp /nutch/home/.ssh/authorized_keys nutch@devcluster02:/nutch/home/.ssh/authorized_keys 
5,将bin和conf下所有的.sh、 nuch、 hadoop文件  dos2unix 
dos2unix /nutch/search/bin/*.sh /nutch/search/bin/hadoop 

配置hadoop-size.xml 
6,记住要把master文件从nutch/hadoop  copy到这个nutch中,应该是bug。也就是说启动需要这个文件,文件内容为默认的localhost即可(如果是分布式,可能需要配置) 
7,格式化namenode 
bin/hadoop namenode -format 
8,启动:bin/start-all.sh 
9,配置crawl  (以配置一个网址 lucene.apache.org为例) 
cd /nutch/search 
mkdir urls 
vi urls/urllist.txt        http://lucene.apache.org 

cd /nutch/search 
bin/hadoop dfs -put urls urls 

cd /nutch/search 
vi conf/crawl-urlfilter.txt 
change the line that reads:   +^http://([a-z0-9]*.)*MY.DOMAIN.NAME/ 
to read:                      +^http://([a-z0-9]*.)*apache.org/ 
10,启动crawl 
bin/nutch crawl urls -dir crawled -depth 3 
11,查询 
bin/hadoop dfs -copyToLocal crawled /media/do/nutch/local/(crawled)   将index的东西copy到以上配置的local中,因为search不能用dfs中搜索(从文档看是这样) 
12,启动nutch.war,测试 
vi nutch-site.xml    nutch.war中classes下 
start tomcat 

注意点: 
1,masters文件 nutch原来没有,需要copy到conf下 
2,crawl的log4j配置默认有问题,需要增加: 
hadoop.log.dir=. 
hadoop.log.file=hadoop.log 
3,nutch1.0 一定要配置nutch-site.xml。重新配置http.agent。default.xml里面已经存在。 


问题: 
1,运行hadoop程序时, 中途我把它终止了,然后再向hdfs加文件或删除文件时,出现Name node is in safe mode错误: 
rmr: org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode 
解决的命令: 
bin/hadoop dfsadmin -safemode leave #关闭safe mode 



索引命令:    
bin/nutch index plainindex/paodingindexes plainindex/crawldb plainindex/linkdb plainindex/segments/20090528132511 plainindex/segments/20090528132525 plainindex/segments/20090528132602 

eg: 
index: 
bin/nutch index crawled/indexes_new crawled/crawldb crawled/linkdb crawled/segments/20100313132517 

merge: 
bin/nutch merge crawled/index_new crawled/indexes_new 

去重 dedup: 
bin/nutch dedup crawled/index_new 


中文分词: 
1.对建立索引所用分词工具的修改 

将下载的中文分词包放到lib目录下,改名为analysis-zh.jar(当然,你也可以不用改)。找到下面文件 

srcjavaorgapache utchanalysisNutchDocumentAnalyzer.java 

修改tokenStream方法如下 

public TokenStream tokenStream(String fieldName, Reader reader) { 
Analyzer analyzer; 
analyzer= new MMAnalyzer(); 
return analyzer.tokenStream(fieldName, reader); 


注意:由于加入信息的分析类,你需要将该类导入。使用如下语句。 

import jeasy.analysis.*; 

2.对查询所用分析部分的修改 

srcjavaorgapache utchanalysis中的NutchAnalysis.jj文件 

将 <SIGRAM: <CJK> > 

改为:| <SIGRAM: (<CJK>)+ > 

使用javacc工具将NutchAnalysis.jj生成java文件,共会生成7个java文件,将他们拷贝到下面的文件夹中替 换原有文件。 

srcjavaorgapache utchanalysis 

如何安装与使用javacc? 

下载javacc并解压,然后将javacc的主目录添加到环境变量下。进入命令行,输入javacc,如果不出现不能识别该命令之类的说法,证明安装成功。 

进入NutchAnalysis.jj文件所在的目录,输入javacc NutchAnalysis.jj命令就会生成7个java文件了。 

3.重新编译工程文件 

这里你需要用到ant工具了,那么ant工具怎么安装呢? 

ant的安装与配置与 javacc类似,下载后解压,然后在path环境变量中加如指向ant下的bin文件夹的路径。 

使用:从命令行进入nutch目录中,输入ant命令,它会自动根据当前目录下的build.xml进行重建。重建完毕后会在改目录下产生一个build文件夹。 

4.重建后的文件替换 

一、将nutch-0.x.x.job文件拷贝出来替换nutch目录下的同名文件。 

二、将uildclassesorgapache utchanalysis目录下的所有文件拷贝替换nutch-0.x.x.jar中orgapache utchanalysis目录下的文件。

三、将nutch-0.x.x.jar文件和你的分词包(我的是analysis-zh.jar)拷贝到tomcat中WEB-INFlib下面。 

5.重新爬行与建立索引,重新启动tomcat即可。 




nutch搜索url过滤规则: 
对于每一次(由depth决定)对url进行filter,所以要搜子页面,首页一定要通过filter,否则搜索不到。 
详见:http://hi.baidu.com/ldl_java/blog/item/84d1427894231ee62f73b30a.html

免责声明:文章转载自《nutch+hadoop 配置使用》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇地方社区论坛案例研究:杭州19楼 Leonejquery参考手册下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

node rpc 使用

什么是rpc RPC(Remote Procedure Call)远程过程调用,简单的理解是一个节点请求另一个节点提供的服务 本地过程调用:如果需要将本地student对象的age+1,可以实现一个addAge()方法,将student对象传入,对年龄进行更新之后返回即可,本地方法调用的函数体通过函数指针来指定。 远程过程调用:上述操作的过程中,如果ad...

Linux 典型应用之WebServer 安装和配置

 Apache的基本操作  安装 yum install httpd 启动 service httpd start  在浏览器中输入以下Ip 发现无法访问 http://192.168.1.109/ 输入以下命令进行网络统计 netstat -anpl | grep 'http'  发现此时80端口和httpd都已经启动了,这时候只...

nginx配置静态文件服务器的一个特殊需求的探索和分享, nginx处理不同路径返回统一文件,nginx改写,跳转请求.

最近在做一个前后端分离的个人博客,在做自己博客的时候有个想法,本来是打算用nginx作为静态文件服务器使用,django做后端程序. 我的前端页面用vue写的,结果用组件用嗨了,发现页面列表和 详情都是通过切换组件实现的,这样很省代码,但是为了实现下面这种效果的时候遇到了问题: 我要访问url: http://www.liushx.com/artical/...

五 数据组织模式 (重组数据) 1 分层结构模式

数据组织模式 是通过分区、分片、排序等方式将个别记录的价值突显出来。 分布式系统是可以通过分、分片及排序方式优化性能。 分层结构模式 分层结构模式是从数据中创造出不同与原有结构的新记录。 当从 RDBMS 中将数据迁移至 hadoop 系统时,首先考虑将数据重新格式化成对计算更为有利的结构。 案例: 一个网站上的帖吧结构。 从RDBMS 迁移...

php可选缓存APC

1、APC缓存简介 APC,全称是Alternative PHP Cache,官方翻译叫”可选PHP缓存”。它为我们提供了缓存和优化PHP的中间代码的框架。 APC的缓存分两部分:系统缓存和用户数据缓存。 系统缓存 它是指APC把PHP文件源码的编译结果缓存起来,然后在每次调用时先对比时间标记。如果未过期,则使用缓存的中间代码运行。默认缓存 3600s(...

HBuilder在线打包ipa步骤

HBuilder在线打包流程,打包需要用到p12文件及配置文件.mobileprovision! 打包过程很简便,主要是申请iOS证书复杂点! 1、打开HBuilder工具,选择开发好的项目,点击发行,选择发行为原生安装包。 2、选择iOS打包,支持的设备类型(可以选择支持iPhone和支持ipad),选择使用苹果证书 AppID:跟申请证书描述.mo...