2016-12-07 3 views
0

apache nutch 2.3.1を使用していくつかのWebサイトをクロールしています。クロールされたデータのwebgrapgを見つける必要がありますが、残念ながらバージョン1.xのようにこのバージョンでは定義されていません。私はこれについていくつかの人を導くことができますか?続き は、バージョン2.3.1のための完全なコマンドラインオプションです(ただし、何webgraphはありません)残念ながらこの機能はまだ私がいることを信じている一般的なルールとして、Nutchのの2.xのブランチに追加されていないApache Nutch 2.xでwebgraphを取得する方法

Usage: nutch COMMAND 
where COMMAND is one of: 
inject  inject new urls into the database 
hostinject  creates or updates an existing host table from a text file 
generate generate new batches to fetch from crawl db 
fetch  fetch URLs marked during generate 
parse  parse URLs marked during fetch 
updatedb update web table after parsing 
updatehostdb update host table after parsing 
readdb  read/dump records from page database 
readhostdb  display entries from the hostDB 
index   run the plugin-based indexer on parsed batches 
elasticindex run the elasticsearch indexer - DEPRECATED use the index command instead 
solrindex run the solr indexer on parsed batches - DEPRECATED use the index command instead 
solrdedup remove duplicates from solr 
solrclean  remove HTTP 301 and 404 documents from solr - DEPRECATED use the clean command instead 
clean   remove HTTP 301 and 404 documents and duplicates from indexing backends configured via plugins 
parsechecker check the parser for a given url 
indexchecker check the indexing filters for a given url 
plugin  load a plugin and run one of its classes main() 
nutchserver run a (local) Nutch server on a user defined port 
webapp   run a local Nutch web application 
junit   runs the given JUnit test 
or 
CLASSNAME run the class named CLASSNAME 

答えて

2

1.xブランチはより多くの機能を持ち、より良いパフォーマンスを示します(ただし、これは変更されています)。 2.xのままにする必要がある場合は、自分で機能を実装するか、またはlinks-indexerプラグインを1.xから2.xに移行することをお勧めします(インデクサープラグインの移行が簡単になると思います)。私はこれを計画したが、時間を見つけることができなかった。

関連する問題