2016-11-07 4 views
0

こんにちは私はこの形式では、この逆索引形式のテキストを持っている:は、インデックス形式のサイズを縮小:テキスト

用語の文書1、文書2 poids1 poids2

は、私は名前を軽減haave彼のサイズを小さくしたいです例えば 文書1意志uはuが私に提案することができます任意のアイデアを持っている場合2.5565465454の重量はJavaでexamleため、このような2.55

BigDecimal bd = new BigDecimal(w); 
bd = bd.setScale(2, RoundingMode.HALF_UP); 

してくださいになります例えばまた、重量のために... 1となった文書の私はしていないサイズを減らすためにコードを編集してみてください。

+0

なぜテキストバージョンのサイズを縮小したいのですか?テキストの場合は、gzipなどの標準圧縮ユーティリティで渡します。そうでない場合は、非テキスト逆ファイル構造自体のサイズを縮小するには、index prunning ...を使用します。ここでは、あまりにも低い体重... – Debasis

+0

私はインデックス剪定が私を助けるかどうか私は知らないので、それは稀な言葉を保つためにアイデアをuに感謝 –

答えて

0

あなたが与えた例は、既存の索引のテキスト・ダンプから得られるテキスト・ファイルです(索引は基本的にバイナリー、テキストファイル)。

この点で、長いドキュメント名をトリミングする用途はあまりありません。 "Document-1"を "D1"に変換する。 Luceneでは、文書と用語は、その名前ではなく整数IDで識別されます。

また、末尾の小数点以下を切り捨てることもありません。 "0.25555"から "0.25"に変更するには、同じ容量の記憶領域(通常64ビット)が必要になるためです。

hereと記載されているApache Luceneのトリミングユーティリティが実際に役立つかもしれません。このパッケージは、さまざまなヒューリスティックアルゴリズムによるインデックストリミングをサポートしています。最も簡単なのは、tfおよびtf-idfベースのプルーニングです。(t、d)という用語は、の投稿一覧から削除されます。 tf(t、d)またはtf(t、d)x idf(t)の値である。

関連する問題