現在私は索引付けしたい数のつぶやきがありますが、それぞれが小さな文書になっています。 1つのファイルにつき100つのツイートを集計するとLuceneを使用して索引付けすることはできますが、同時にツイートID(ファイル内のID列)を維持することは可能ですか?Luceneのツイートのツイート
は例えば、各行が、それは以下のようになります。
TweetID | TweetText
おかげで、 アンディ。
現在私は索引付けしたい数のつぶやきがありますが、それぞれが小さな文書になっています。 1つのファイルにつき100つのツイートを集計するとLuceneを使用して索引付けすることはできますが、同時にツイートID(ファイル内のID列)を維持することは可能ですか?Luceneのツイートのツイート
は例えば、各行が、それは以下のようになります。
TweetID | TweetText
おかげで、 アンディ。
Solrはこれらの「多値フィールド」を呼び出し、それらが達成する方法はオフセットによって行われます。基本的には、ツイートごとに200バイトを割り当て、200番目のオフセットで開始するn番目のツイートのオフセットを設定します。
検索すると、一致したツイートのオフセットを戻すことができ、そこからどのツイートが一致したかがわかります。
質問として再フォーマットしてください。何があなたのために難しいのですか?ありがとう。 –