2016-03-22 12 views
0

ストリームを読み込み中に索引付けするには、Luceneを使用したいと考えています。データのサイズと限られたRAMのため、私はバッファにすべてを入れることはできません。代わりにLuceneがストリームから消費し、インデックスを作成し、より多くのデータが利用可能になるのを待ってからEOFまで消費してほしい。Lucene:ストリームを索引付けする(バッファーでは使用できません)

Luceneは、トークンを終了するのに十分な文字が取得されるまで、部分トークンのみをバッファする必要があります。

Luceneでこれを行うことはできますか?どうやって?

答えて

0

フィールドコンストラクタにStringではなくReaderを渡すことができます。私はこのことがフィールド全体をメモリに読み込む必要はないと信じています(私は実際にこれについて大きなテストをしていません)。フィールドに保存することはできませんが、メモリにロードできない場合はどうしますか?

しかし、部分的にしか読むことができないと私は信じていません。トークン私はあなたが絶対に最小限のメモリに各トークンを読み込むことができる必要があると信じています。あなたのトークンが利用可能なメモリをオーバーフローさせるほど大きい場合は、おそらく分析スキームを再考する必要があります。

関連する問題