2016-12-02 7 views
0

クロールされたコンテンツから特定の情報を取得しようとしています。 nutchはウェブサイトの全文をまとめてダンプするので、特定のコンテンツを取得することは難しいです。私は、弾性検索でインデックスを作成しているクロールされたテキストコンテンツに区切り文字を追加したいと思います。クロールされたコンテンツに区切り文字を追加する

http://example.com/からデータをクロールしながら、私はそれが形式で

 

Example Domain | Example Domain | This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission. | More information... 

になりたい

 

Example Domain Example Domain This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission. More information... 

elasticsearchにインデックスを付けますのデータは、我々はどこかNutchの構成で、この区切り文字を定義することができますか?

答えて

0

基本的には、ウェブページのさまざまな部分を格納するためにフィールドを分割することです。たとえば、商品ページの価格、評価、説明をフィールドごとに並べ替えたい電子商取引サイトです。 Nutch 1.xでは、取得されたコンテンツの解析を行うカスタムプラグインを作成することでこれを行います。

プラグインはHtmlParseFilterインターフェイスをインクレメントし、IndexingFilterを入力してから、Solr/ESでフィールド/マッピングを定義する必要があります。

カスタムプラグインを作成する場合は、hNタグを抽出できるようにするheadingsプラグインを確認してください。

https://issues.apache.org/jira/browse/NUTCH-1870を見ると、特定のxpath式を抽出するコンテンツを指定できるようになります。

+0

ありがとうございました。 – vibhash

+0

助けてくれてうれしいです! –

関連する問題