2011-01-07 10 views
1

私たちはイントラネットサイトをクロールするためにnutchを使用しています。HDFS内にMetaDataを書き込む

インデックス作成フェーズ(indexer.javaのコードを変更しました)でxmlファイルのメタデータを抽出しています。ローカルモードで実行すると、必要なメタデータが与えられました。

ここで、nutchをクラスタモードで使用することを考えました(hadoopを使用).nutchをクラスタでクロールすると、私たちが使用したローカルモードで以前は取得していたメタデータではなくインデックスを取得できますJavaのファイルにメタを書き込むためのIOクラス)。 hadoopの場合、これをhadoopファイルシステムのioクラスに変更しました。しかし、我々はメタを得ることができません。

解決策はありますか、何か不足していますか?事前に

おかげで、 ジオ

答えて

1

我々は(我々はindexer.javaのコードを修正)インデックス段階では、XMLファイル内のメタデータを抽出して、ローカルモードで実行したとき、それは私たちを与えました必要なメタデータあなたは

が発生しました問題が示されているように

インデクサを変更することは最良の選択肢ではありません、あなたでした:あなたがしたい場合は

  • は、(注入の一環として、メタデータを追加シードのみ)
  • またはカスタムインデックスプラグインを作成します。/confのファイルからXML mdをロードするようにする/

conf /の内容がジョブファイルに追加され、クラスタのノードに分散されます。コード内にプラグインをインデックスする例がかなりあります。

Nutchユーザーリストを使用して、より多くの視聴者を獲得する必要がありますか?

関連する問題