次の問題があります。セットに基づいてワードをクラスタリングするために使用するアルゴリズム
私は、単語の行を含む大きなデータセットを持っています。 はとてもすなわち
apple,door,wood
window,door,house
boot,pie,dessert
私はすべてのこれらの言葉のうち、4つのカテゴリーを作成してから4つのいずれかのカテゴリに単語の新しい行を一致させたいです。一行にある単語は何らかの形で結びついていますが、単語の行をどうやって取得するかについての情報はありません。
私はこれに使用できるscikit-learnや他のpythonパッケージにアルゴリズムがありますか?
編集:
私は少しの情報を与えました。
例では単語はウェブページのキーワードにすることができ、そのキーワードに基づいてカテゴリを選択したいので、次の記事として何を読むべきかを提案することができます。
しかし、私は多くのカテゴリを作成したくないので、カテゴリを結合したいと思います。つまり、「犬」が「家」と同じ行で何度も見つかった場合、「犬」がキーワードに存在する場合は「家」を提案できます。
カテゴリを先に設定したくない場合は、最初にグループを取得してから、最もよく一致するカテゴリを作成します。
あなたの質問は非常に不明瞭で幅広いです。カテゴリは何ですか?行や個別の単語を分類しますか?これまでに何を試しましたか? scikit-learnは、さまざまな機械学習アルゴリズムの実装を提供します。 –
データセット内の単語はすべて異なっていますか?あるいは、しばしば自分自身を繰り返すような言葉のような「パターン」を見つけますか?あなたはあなたが持っている別の言葉の数を数えることができますか? –
@EliKorvigoさらに詳しい情報を追加しました。私はちょうどシキットで始まっているので、まだ多くのアルゴを知らない。しかし、私はkmeansやminibatchについて考えましたが、複数のセットでこれを行う方法は分かりませんでした。 – user3605780