2016-08-05 4 views
0

私はテキストデータを扱うことでかなり新しいです。kがいつtf idfに収束するかを理解するには?

私は約30万のユニークな製品名のデータフレームを持っており、kを使用しようとしているのは、同様の名前を一緒にクラスタ化することを意味します。私はsklearnのtfidfvectorizerを使って名前をベクトル化し、tf-idf行列に変換しました。

私はそれを疎な行列に変換した後、kは5-10のクラスターを意味しますが、収束しているかどうかはわかりません。

これをどのように把握できますか?

+0

メモリーが正しいと収束しない場合は、警告が出力されます – pyCthon

答えて

1

the sourceによれば、属性n_iter_は、k-回の反復を保持する必要があります。 n_iter_ < max_iterの場合、アルゴリズムは所定の許容値内に収束しました。

達成しようとしているのは、クラスタの最適数を決定する場合です。elbow methodには、inertia_属性を使用できます。

関連する問題