2011-12-10 13 views
0

現在私は索引付けしたい数のつぶやきがありますが、それぞれが小さな文書になっています。 1つのファイルにつき100つのツイートを集計するとLuceneを使用して索引付けすることはできますが、同時にツイートID(ファイル内のID列)を維持することは可能ですか?Luceneのツイートのツイート

は例えば、各行が、それは以下のようになります。

TweetID | TweetText 

おかげで、 アンディ。

+0

質問として再フォーマットしてください。何があなたのために難しいのですか?ありがとう。 –

答えて

0

Solrはこれらの「多値フィールド」を呼び出し、それらが達成する方法はオフセットによって行われます。基本的には、ツイートごとに200バイトを割り当て、200番目のオフセットで開始するn番目のツイートのオフセットを設定します。

検索すると、一致したツイートのオフセットを戻すことができ、そこからどのツイートが一致したかがわかります。

+0

TweetIDの20桁とTweetテキストの140文字= 160バイト+他の情報の40バイトを予約するとしたら、それはどういう意味ですか? – cherhan

+0

はい、必要と思われる金額を予約することができます。 Luceneはスパースストレージフォーマットを使用しているため、ストレージペナルティを支払うことなく、本質的にあなたが好きなオフセットに設定することができます。 – Xodarap

関連する問題