2011-03-07 7 views
0

質問MyISAM検索インデックスで重複するエントリの重みをどのように扱うべきですか?

私は、検索候補テーブルを生成するmyisam_ftdumpの結果を使用しています。このプロセスはスムーズに進みましたが、多くの単語がインデックスに複数回現れます。明らかに、私はちょうどSELECT distinct term FROM suggestions ORDER BY weightであるかもしれませんが、これは複数回表示されるという言葉に不利益を与えませんか?

もしそうなら、行をマージするための簡潔な式がありますか?

そうでない場合は、どの行を保持する必要がありますか(たとえば、最も高い重み付け、最も低い重み付け)ですか?

例のデータ

+-----+------------+----------+ 
| id | word  | weight | 
+-----+------------+----------+ 
| 670 | young  | 0.416022 | 
| 669 | york  | 0.54944 | 
| 668 | years  | 0.281683 | 
| 667 | years  | 0.416022 | 
| 666 | wrote  | 0.416022 | 
| 665 | written | 0.35841 | 
| 664 | writing | 0.29518 | 
| 663 | wright  | 0.281683 | 
| 662 | witness | 0.281683 | 
| 661 | wiesenthal | 0.452452 | 
| 660 | white  | 0.35841 | 
| 659 | white  | 0.281683 | 
| 658 | wgbh  | 0.369332 | 
| 657 | weighs  | 0.35841 | 
+-----+------------+----------+ 

は特に '白' と「年を参照してください。

答えて

1

myisam_ftdump -dのように見えます。代わりにmyisam_ftdump -cを使用したいと思います。

これは、1語につき1行、その単語がインデックスに何回表示されたか、その全体の重みを示します。私は私のコーヒーでより多くのカフェインを必要とするよう

-c, --count   Calculate per-word stats (counts and global weights). 
    -d, --dump   Dump index (incl. data offsets and word weights). 
+0

おかげで、私は右の '-c'オプションの上に練り、見える:

ここ-c対-d上のドキュメントです。 – fncomp

関連する問題