2012-03-19 10 views
0

Nutch 1.4を使用してウェブサイトをクロールしました。 ウェブサイトが正常にクロールされ、すべてのページがセグメントにダンプされました。 すべてのセグメントを1つのセグメントにマージしてから、readsegコマンドを使用して、すべてのクロールされたページのテキスト版を取得しました。 これで、そのページに格納されているページのURLとメタデータを調べる必要があります。 どのコマンドを使用するのかわかりませんが、何か違うことをする必要がありますか?Apache Nutch 1.4を使用してクロールおよび解析後に取得されたHTMLドキュメントから特定のタグを取得します。

googleで多くの努力をしてきました。あなたは、別のプラグインを作成する必要があると言った人がいました。誰かが私に教えてくれますか?

ありがとう:) :)

+0

クロールされたすべてのHTMLドキュメントのURLに対応するメタデータを取得したいとします。助けてください! –

答えて

0

はクロールを行い、この問題を解決します: あなたは、インデックス、メタタグがここで提供するプラグインを使用することができます。その後、これを端末に入力します。

bin/nutch readseg -dump crawl/segments/* output -nocontent -nofetch -nogenerate -noparse -noparsedata 

実行すると、ヘッダー情報と内容を含むファイルが作成されます。その後、ファイルを簡単に変更して、文字列操作で必要な情報を取得できます。

関連する問題