2012-01-11 9 views
0

私はSolrを検索サーバーとして使用する予定で、独自のスパイダーを開発したり、Nutchを拡張したりする予定です。マルチコア分散アーキテクチャのSolr?

私は今のところ私の目的に役立つ最高の経済的なトポロジーを設計しようとしていますが、今後もスケールアウトされるように未解決のままです。

すべてのマシンのホスティングにAmazon AWSを使用する予定です。私の質問は、アイデアと要件を実行するの実現可能性を理解することです、助けていただければ幸いです!

  1. Solrのノード(クエリのみを提供するために専用 - Webフロントエンドへのクエリサーバーとして)一つのインデックスサーバーとして需要Solrのノード(1または多数)で
  2. ( - Nutchのか、他のスパイダーは、このノードに接続します

多くの他の検索サーバー(たとえば、Microsoft FASTまたはSharePoint Search)はよくわかりませんが、共通データベースを使用して分散トポロジを展開できます。

このようなトポロジーをサポートできる場合は、Hadoopやその他の分散ファイルシステムを使用したいと思います。

だから、主に、それは次のように視覚化するだろう、

    --------------------------------------------------- 

       Hadoop or anyother distributed file system/db system 

        --------------------------------------------------- 

              || 
              || 
              || 
              VV 
        ----------------    ------------------------ 

        Solr query node     Dedicated Solr index nodes 
       (1 powerful server)   +    (on demand) 
               with Nutch or other web spider 

        ----------------    ------------------------ 

         ||         || 
         VV         VV 
        Web Front End       Internet  

私は、他のフォーラムやフリーランスのウェブサイトに提案マルチコアの実装上のコミュニティのメンバーの多くがこの技術に新たなんだけど、私の理解がマルチコアでは区別をサポートすることですデータノード(クラスタリングや分散アーキテクチャとは関係ありません)!私は正しいですか?

実現可能性に関するアドバイスをしてください。

事前に感謝します。

ニレイ。

答えて

1

solrの "コア"は、 "フルテキストインデックス環境"を表すために使用されます。 1つのJava EEコンテナ(tomcat、antなど)を実行して、異なるデータベースと異なるフルテキストインデックスを持つ異なるサービスを提供することができます。 例1製品検索のコア、メール検索のコアなど。

solrを実行しているすべてのJava EEコンテナには、最低1つのコアがあります。 トポロジを見ると、1つのフロントエンドのsolr-envorinmentが必要なようです。おそらく1つのコアと1つのバックエンドのsolr-envoronmentがあります。

2つのサーバー、2つのJava EEコンテナ、2つのコアがあります。 これらの2つのコアは "マルチ"(複数の)コアとして見ることができますが、実際これは2つのシングルコアインストールであり、おそらく複製のようなものを使用していました。 http://wiki.apache.org/solr/SolrReplication

+0

ありがとう、私はそれを見ます。私の必要性は、すべてのsolrインスタンス間でクォーラムの種類のストレージをシミュレートする必要があります。また、クロールされたデータを処理し、クォーラム格納インデックスを更新するオンデマンドソーラーインスタンスを起動できます。クラスタを超えて、弾力的な属性を持っているので、私の要求に応えることができます。 –