久久精品人人爽,华人av在线,亚洲性视频网站,欧美专区一二三

Nutch1.7如何配置到eclipse

164次閱讀
沒有評論

共計 3905 個字符,預計需要花費 10 分鐘才能閱讀完成。

這篇文章主要介紹 Nutch1.7 如何配置到 eclipse,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

進入正題:

1、將 nutch 項目部署到 eclipse
首先到 nutch 官網上找到 FAQ 鏈接 http://wiki.apache.org/nutch/FAQ,進入鏈接
點擊第二個鏈接查看。

參照文檔進行配置,有卡殼不明白的地方,繼續在網上針對具體問題查找資料。集成時可參照 http://blog.csdn.net/witsmakemen/article/details/8866235。
運行之前必須有一下先決條件:
A、在 windows 上安裝配置 Apache Ant,http://ant.apache.org/manual/index.html
B、安裝 Eclipse,這個不用說肯定是必須的。
C、在 Linux 安裝 svn。目的:遷出 nutch2.7 源代碼。
D、在 Linux 下檢出 nutch2.7 代碼
[root@nutch-five branch-1.7]# svn co http://svn.apache.org/repos/asf/nutch/branches/branch-1.7/
E、在 Linux 安裝 ivy 插件。目的,根據 ivy 配置文件動態下載 jar 包。
F、編譯 branch2.7

[root@nutch-five branch-1.7]# ant

2、在 Linux 下執行 ant 命令編譯源代碼:ant /p

3、編譯成功后,將 trunk 文件夾復制到 windows 中,導入 eclipse /span

A、eclipse : File — New — Java Project

B、點擊 NEXT
找到 conf 文件夾,然后點擊 Add Folder conf to build path

defautl output 設置為 apache-nutch-1.7/conf
在這兒我因為不能創建 conf,所以寫為 conf

點擊 Finish
至此,建立成功。

C、此時會發現工程有錯誤(紅色的小叉叉),這是因為缺少引用導致。
以 parse-html 為例:
import org.cyberneko.html.parsers.*;
這里報錯是因為缺少 nekohtml-0.9.5.jar
如何獲取 nekohtml-0.9.5.jar:
找到 runtime/local/plugins/lib-nekohtml/nekohtml-jar,單擊右鍵 add to build path,其他 bug 以此類推。
在 這兒一共要的 jar 包大概有,runtime/local/plugins/lib-nekohtml/nekohtml-jar、runtime /local/plugins/parse-html/tagsoup.jar、runtime/local/plugins/feed /rome.jar(解決了 com.sun.syndication.io.SyndFeedInput 報錯問題)、runtime/local /plugins/urlfilter-automaton/automaton.jar(解決 dk.brics.automaton.RunAutomaton 報錯問題)
至此整個工程將應該不會有錯了。
4、新建文件夾 urls
在文件夾內新建文件 url,存放待抓取網址
如:http://www.163.com/
5、運行程序

6、報異常:
ERROR security.UserGroupInformation (UserGroupInformation.java:doAs(1193)) – PriviledgedActionException as:hadoop cause:java.io.IOException: Failed to set permissions of path: \tmp\hadoop-hadoop\mapred\staging\hadoop1071373990\.staging to 0700
解決方案:
下 載 hadoop 的源代碼,重新編譯 hadoop 的 hadoop-core.jar 包,替換掉 nutch 項目中的 hadoop-core.jar 的 jar 包。(注意:下載時先確定 nutch 引用的 hadoop 的哪個版本的 jar 包,然后下載對應版本。在 runtime/local/lib 中可以找到對應 hadoop 的 jar 包。)
下載 hadoop 源代碼:
下載鏈接:http://apache.dataguru.cn/hadoop/common/hadoop-1.2.1/

1、注釋掉 build.xml 中的
target name= create-native-configure
exec executable= autoreconf dir= ${native.src.dir} searchpath= yes failonerror= yes   arg value= -if /
/exec
  /target
2、去掉 compile-core-native 中的 create-native-configure 依賴
  target name= compile-core-native depends= create-native-configure,compile-core-classes
if= compile.native
3、修改 hadoop-1.1.2/src/core/org/apache/hadoop/fs/FileUtil.java 691 行,把 throw new IOException 改為 LOG.warn
4、用 ant 編譯項目,編譯成功后從 build 文件夾中取出 hadoop-core.jar 文件夾,放入 nutch 項目中,替換項目中原有 hadoop-core.jar,放入 build/lib 文件夾下。再通過 buildpath 添加 jar 包。
添加完畢后,運行測試
7、繼續運行,繼續報錯
java.lang.RuntimeException: Error in configuring object

解決方案:
將 nutch-default.xml 中的
property
  name plugin.folders /name
  value ./src/plugin /value
description Directories where nutch plugins are located.  Each
element may be a relative or absolute path.  If absolute, it is used
as is.  If relative, it is searched for on the classpath. /description
/property
紅色處改一下就可以了。
參照上邊的運行方法,繼續運行測試,產生異常:
java.net.SocketException: Software caused connection abort: recv failed
解決方案:
鏈接不成功,可以忽略,對程序沒有影響。
至此,nutch 在 eclipse 中集成成功。

相關異常:
ERROR security.UserGroupInformation (UserGroupInformation.java:doAs(1193)) – PriviledgedActionException as:hadoop cause:java.io.IOException: Failed to set permissions of path: \tmp\hadoop-hadoop\mapred\staging\hadoop1071373990\.staging to 0700
解決方案:
重新編譯 hadoop 的 hadoop-core.jar 包,替換掉 nutch 項目中的 hadoop 的 jar 包
1、注釋掉 build.xml 中的
target name= create-native-configure
exec executable= autoreconf dir= ${native.src.dir} searchpath= yes failonerror= yes   arg value= -if /
/exec
  /target
2、去掉 compile-core-native 中的 create-native-configure 依賴
  target name= compile-core-native depends= create-native-configure,compile-core-classes
if= compile.native
3、修改 hadoop-1.1.2/src/core/org/apache/hadoop/fs/FileUtil.java 691 行,把 throw new IOException 改為 LOG.warn
4、用 ant 編譯項目,編譯成功后從 build 文件夾中取出 hadoop-core.jar 文件夾,放入 nutch 項目中,替換項目中原有 hadoop-core.jar,放入 build/lib 文件夾下。再通過 buildpath 添加 jar 包。
添加完畢后,運行測試
源碼環境搭建時發現 sun.net.util.ipaddressutil 的包沒有
sun.net 包里的類,在 eclipse 里默認是不讓用的。解決辦法是自定義 access rules 工程上右鍵 - 工程屬性 - java builder path- Libraries 標簽,點擊 JRE System Library 里面的 Access rules,add sun/** 為 accessible,如果該項存在,就 edit。

以上是“Nutch1.7 如何配置到 eclipse”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注丸趣 TV 行業資訊頻道!

正文完
 
丸趣
版權聲明:本站原創文章,由 丸趣 2023-08-17發表,共計3905字。
轉載說明:除特殊說明外本站除技術相關以外文章皆由網絡搜集發布,轉載請注明出處。
評論(沒有評論)
主站蜘蛛池模板: 米易县| 琼中| 锦州市| 中超| 穆棱市| 甘洛县| 定远县| 海口市| 万盛区| 永兴县| 青铜峡市| 秀山| 年辖:市辖区| 邢台县| 托克托县| 瑞丽市| 商城县| 杭锦后旗| 公安县| 游戏| 珠海市| 庄浪县| 梧州市| 宣武区| 乐安县| 安西县| 东宁县| 海阳市| 巫山县| 石柱| 牟定县| 正定县| 北票市| 滕州市| 靖江市| 依安县| 娱乐| 和田县| 庆云县| 京山县| 广宗县|