2017-03-06 6 views
0

私は美しいスープ+パイソンを使用してウェブサイトの500以上のリンク/サブリンクを削除しましたが、今度はelasticsearchでこのURLのすべてのコンテンツ/テキストを索引することを楽しみにしています私は弾力的な検索/キバナのスタックを使って直接索引付けすることができます。ウェブ検索のコンテンツをelasticsearch/kibanaに

私はポインタで私を助けてください、私はGoogleで検索しようとしたとlogstashが見つかりましたが、それは単一のURLのために働くようです。

+0

であなたの可能性を与えるかもしれません参照のために以下のリンクを試してください: http://stackoverflow.com/questions/13647406/how-to-index-dump-of-html-files-to-elasticsearch :) – Anand

+0

または、出力を聞くログスタッシュエージェントを追加することができますあなたのクローラーの力と弾力を与えます。 – Adonis

+0

これを行うにはサンプル参照コードを教えてください。 – Anand

答えて

0

Logstashの参考のために参照してください。https://www.elastic.co/guide/en/logstash/current/getting-started-with-logstash.html

そうでない場合は、URLごとの行で、ファイルにあなたのクローラの出力を置くの例は、あなたが以下のlogstashの設定を持つことができ、この例では、logstashが読み込まれます1行はメッセージであり、host1とhost2上のエラスティックサーバに送信します。

input { 
    file { 
     path => "/an/absolute/path" #The path has to be absolute 
     start_position => beginning 
    } 
} 

output { 
    elasticsearch{ 
     hosts => ["host1:port1", "host2:port2"] #most of the time the host being the DNS name (localhost as the most basic one), the port is 9200 
     index => "my_crawler_urls" 
     workers => 4 #to define depending on your available resources/expected performance 
    } 
} 

今もちろん、あなたには、いくつかのフィルタ、クローラの出力の後処理をしたい、そしてそのLogstashのために、私は私ができると思いますcodecsおよび/またはfilters

関連する問題