Luceneのツイートのツイート

現在私は索引付けしたい数のつぶやきがありますが、それぞれが小さな文書になっています。 1つのファイルにつき100つのツイートを集計するとLuceneを使用して索引付けすることはできますが、同時にツイートID（ファイル内のID列）を維持することは可能ですか？Luceneのツイートのツイート

は例えば、各行が、それは以下のようになります。

TweetID | TweetText

おかげで、アンディ。

2011-12-10 cherhan

質問として再フォーマットしてください。何があなたのために難しいのですか？ありがとう。 –

Solrはこれらの「多値フィールド」を呼び出し、それらが達成する方法はオフセットによって行われます。基本的には、ツイートごとに200バイトを割り当て、200番目のオフセットで開始するn番目のツイートのオフセットを設定します。

検索すると、一致したツイートのオフセットを戻すことができ、そこからどのツイートが一致したかがわかります。

2011-12-12 22:30:21 Xodarap

TweetIDの20桁とTweetテキストの140文字= 160バイト+他の情報の40バイトを予約するとしたら、それはどういう意味ですか？ – cherhan

はい、必要と思われる金額を予約することができます。 Luceneはスパースストレージフォーマットを使用しているため、ストレージペナルティを支払うことなく、本質的にあなたが好きなオフセットに設定することができます。 – Xodarap

答えて