団体

2011-11-10 11 views
0

団体

1=> aa,ser,sdf,gg,er,we <br/> 
2=> gg,aa,uy,de,or,qq<br/> 
3=> aa,er,we,uy<br/> 
4=> oo,aa,gg,tr,dw<br/> 
5=> iu,gg,re,de,ser<br/> 

も同様に約1000トランザクションがあるように私は、データセットを持っているを見つけるための適切なアルゴリズム。
私は

"AA"、 "AA" と "GG"、 "○○"

などでより頻繁に見つけたものを商品数ファインたい...
私は項目に名前を付ける時はいつでも、頻繁に使用される他のアイテムを表示する必要があります。どのような種類のアルゴリズム/アルゴリズムがこのような状況で使用するのに適していますか?

答えて

0

が一つの大きな2列のテーブルにそれすべてを分割:

num,wrd 
===,=== 
1,aa 
1,er 
1,gg 
1,sdf 
1,ser 
1,we 
2,aa 
2,dd 
... 
5,re 
5,ser 

をそこから、それはあなたが望むものを照会する方が簡単です。たとえば、

select wrd, count(*) from words group by wrd order by count(*) desc; 
0

アソシエーションルールラーニングは、シンプルで高速なオプションです。

ソリューションのチューニング方法に応じて、多くのオプションがあります。トピックについてはsurveyをチェックしてください。