私はCSV形式のファイルで1ペタバイトのデータを検索する必要があります。 LUCENEを使用した索引作成後、索引ファイルのサイズは元のファイルよりも倍増します。インデックス付きファイルのサイズを減らすことは可能ですか? HADOOPでのLUCENEインデックスファイルの配布方法と検索環境での使用方法それが必要なのですか?私はsolrを使ってLUCENEインデックスを配布すべきですか?私の要件は、ファイルのペタバイト以上のインスタント検索を行っています....データのペタバイト単位でインスタント検索
答えて
あなたが持っているデータのサイズ以上の検索機能を提供することができる必要があります棚の検索エンジン(Luceneのような)インデックスを設計して検索の仕組みを設定するには、ちょっとした作業が必要になるかもしれませんが、これは単なる設定です。
あなたはすぐに結果を得ることはできませんが、をすばやく得ることができるかもしれません。結果速度はおそらく設定方法や実行するハードウェアの種類によって決まります。
インデックスは元のデータよりも大きいと言います。これは予期されることです。索引付けには、通常、ある形式の非正規化が含まれます。索引のサイズは、しばしば速度とのトレードオフです。事前にデータをスライスしてダイスする方法が増えるほど、参照を見つけるのが早くなります。
最後に、インデックスの配布について言及していますが、これはほぼ確実にではありません。何かしたいことです。多くのペタバイトのデータを配布することの実用性はかなり難しいです。おそらく、大規模な太いコンピュータにどこかにインデックスを置いて、データに検索サービスを提供する(クエリにデータを持ち込む、データをクエリに渡さない)ことが、おそらく必要です。
Qwerkyありがとうございます。もう一つの疑問、luceneとhadoopを統合する方法は? LuceneでHadoopをどの部分で使うことができるのですか?データのペタバイトがHadoopファイルシステムだけで配布されているので.... – Nageswaran
ハープと統合してLuceneでMap/Reduceを使用することはできますか? – Nageswaran
HadoopとMap Reduceは、バッチ処理モデルに基づいています。あなたはすぐに応答スピードを出すつもりはありません。それは単にツールが設計したものではありません。 Hadoopでインデックス作成のスピードを上げることは可能かもしれませんが、クエリに必要なことはしません。
LuceneのカサンドラベースのバックエンドであるLucandraをご覧ください。 CassandraはFacebookで開発された別の分散データストアで、hadoopよりも多くのクエリ指向のアクセスモデルでより高速なアクセス時間を実現するように設計されています。
実装を変更しないようにするには、luceneインデックスを10個、20個またはそれ以上のインデックスに分解し、それらを並行してクエリする必要があります。私の場合(私は8つのインデックスを作成しました)、80GBのデータがあり、デベロッパーマシン(Intel Duo Core、3GB RAM)で動作する検索を実装する必要がありました。
- 1. jQueryのインスタント検索
- 2. jQueryインスタント検索スクリプトタブの修正
- 3. インスタント検索でのajaxコールの数を減らす
- 4. nedtrieでの検索操作の複雑さ(ビット単位のトライ)
- 5. MySQLで時間単位でグループを検索する
- 6. mongoosastic + AJAXでインスタント検索を行うには?
- 7. テキストファイル内の単語の頻度を行単位で検索するC++
- 8. PHP、jQuery - インスタント検索の実現について
- 9. PHP/Javascript - インスタント検索は異なりますか?
- 10. Pythonで単語を検索
- 11. Twitterで検索キーラグのデータ
- 12. 単語検索アルゴリズム
- 13. ウェブサイトのデータ検索
- 14. EJB単一トランザクションで永続データを検索
- 15. 治療単位検査
- 16. MySQLベースの単純検索
- 17. Solr検索結果とドキュメントの検索位置
- 18. グリッドビューでデータをページ単位で表示
- 19. 単純な検索でのSQLのダブルレコード
- 20. mysqlのPHPでの簡単な検索
- 21. WebViewで単語と文字を検索して検索する
- 22. 行単位で検証する
- 23. AngularJSでの簡単なデータベース検索エンジン
- 24. Duckduckgoでの簡単なサイト検索
- 25. Powershellを使用してミリ秒単位で時間を検索しますか?
- 26. ブロック単位でデータを表示
- 27. は、私は、データテーブルの上にjQueryのインスタント検索バーを持って
- 28. JQGridツールバー検索:列の複数の単語を検索
- 29. イメージ/パターン内のサブパターン位置の検索
- 30. マウスホイールイベントからのマウス位置の検索
「インスタント」とはどういう意味ですか? google/yahoo /任意の検索エンジンスタイルで何かしたいのであれば、解体前にアーキテクチャを研究することをお勧めします。 – Riduidel
うん、類似Googleのインスタント検索。しかし、ここでの要件は、クエリーを変更するとすぐに、クエリーに基づいてcsvファイルを検索してグラフを描くことです。グラフも変更する必要があります。 – Nageswaran