Apache Nutch 1.4を使用してクロールおよび解析後に取得されたHTMLドキュメントから特定のタグを取得します。

Nutch 1.4を使用してウェブサイトをクロールしました。ウェブサイトが正常にクロールされ、すべてのページがセグメントにダンプされました。すべてのセグメントを1つのセグメントにマージしてから、readsegコマンドを使用して、すべてのクロールされたページのテキスト版を取得しました。これで、そのページに格納されているページのURLとメタデータを調べる必要があります。どのコマンドを使用するのかわかりませんが、何か違うことをする必要がありますか？Apache Nutch 1.4を使用してクロールおよび解析後に取得されたHTMLドキュメントから特定のタグを取得します。

googleで多くの努力をしてきました。あなたは、別のプラグインを作成する必要があると言った人がいました。誰かが私に教えてくれますか？

ありがとう:) :)

出典

2012-03-19 Lina Clark

クロールされたすべてのHTMLドキュメントのURLに対応するメタデータを取得したいとします。助けてください！ –

最後に、私はそれを行うことができます。他の誰かがそれを必要とする場合のための共有。 http://wiki.apache.org/nutch/IndexMetatags

をそれは乾杯:)

出典

2012-03-21 13:35:19

はクロールを行い、この問題を解決します：あなたは、インデックス、メタタグがここで提供するプラグインを使用することができます。その後、これを端末に入力します。

bin/nutch readseg -dump crawl/segments/* output -nocontent -nofetch -nogenerate -noparse -noparsedata

実行すると、ヘッダー情報と内容を含むファイルが作成されます。その後、ファイルを簡単に変更して、文字列操作で必要な情報を取得できます。

出典

2012-04-20 11:19:46

Apache Nutch 1.4を使用してクロールおよび解析後に取得されたHTMLドキュメントから特定のタグを取得します。

答えて

関連する問題