2011-11-14 8 views
1

私は、bloggデータ用の検索フレームワークを導入しようとしているプロジェクトに取り組んでいます。私たちは、300 GBを超える大規模なデータセットに対するlucene/Solrの性能を見積もることに苦労しています。lucene/Solrパフォーマンスとハードウェア要件

単一のサーバー設定を使用してパフォーマンス要件を満たすことができるのか、レプリケートまたは分散されたソリューションを使用する必要があるかどうかは不明です。

誰もがluceneのを使用して、ハードウェア上と場合の推定を提供することができますが、決定的

+0

実際の索引付け可能なテキスト・コンテンツのサイズをより正確に判断することができます。 300 GBのプレーンテキストの要件は、300 GBの.docファイルとは大きく異なります。また、より小さなデータセット(たとえばデータの10%)でテストを実行して、パフォーマンスとリソース要件についていくつかのアイデアを得ることをお勧めします。 –

答えて

2

何も実行可能な解決策ではないデータで、適切な外観(というか、少なくとも簡単なベンチマーク)せずに言うことができます。索引付けと検索のパフォーマンス(別途考慮する必要があります)は、構成によって大きく異なる場合があります。

しかし、this articleはLuceneのインデックス作成速度の全体的な印象を与えるはずです。最新の単一のマシンで約13分で21GBのWikipedia記事を索引付けすることが可能です。

関連する問題