は、インデックス形式のサイズを縮小：テキスト

こんにちは私はこの形式では、この逆索引形式のテキストを持っている：は、インデックス形式のサイズを縮小：テキスト

用語の文書1、文書2 poids1 poids2

は、私は名前を軽減haave彼のサイズを小さくしたいです例えば文書1意志uはuが私に提案することができます任意のアイデアを持っている場合2.5565465454の重量はJavaでexamleため、このような2.55

BigDecimal bd = new BigDecimal(w); 
bd = bd.setScale(2, RoundingMode.HALF_UP);

してくださいになります例えばまた、重量のために... 1となった文書の私はしていないサイズを減らすためにコードを編集してみてください。

出典

2016-11-07 Amal Kostali Targhi

なぜテキストバージョンのサイズを縮小したいのですか？テキストの場合は、gzipなどの標準圧縮ユーティリティで渡します。そうでない場合は、非テキスト逆ファイル構造自体のサイズを縮小するには、index prunning ...を使用します。ここでは、あまりにも低い体重... – Debasis

私はインデックス剪定が私を助けるかどうか私は知らないので、それは稀な言葉を保つためにアイデアをuに感謝 –

あなたが与えた例は、既存の索引のテキスト・ダンプから得られるテキスト・ファイルです（索引は基本的にバイナリー、テキストファイル）。

この点で、長いドキュメント名をトリミングする用途はあまりありません。 "Document-1"を "D1"に変換する。 Luceneでは、文書と用語は、その名前ではなく整数IDで識別されます。

また、末尾の小数点以下を切り捨てることもありません。 "0.25555"から "0.25"に変更するには、同じ容量の記憶領域（通常64ビット）が必要になるためです。

hereと記載されているApache Luceneのトリミングユーティリティが実際に役立つかもしれません。このパッケージは、さまざまなヒューリスティックアルゴリズムによるインデックストリミングをサポートしています。最も簡単なのは、tfおよびtf-idfベースのプルーニングです。（t、d）という用語は、の投稿一覧から削除されます。 tf（t、d）またはtf（t、d）x idf（t）の値である。

出典

2016-11-09 14:02:48 Debasis

は、インデックス形式のサイズを縮小：テキスト

答えて

関連する問題