2016-03-29 5 views
0

私はエンジェルリストDBを使用して業界に基づいたスタートアップを分類しています。これらのスタートアップはほとんどの場合誤っているコミュニティ入力に基づいて分類されています。説明からスタートアップの業界を探す

私のビジネスの目的は、この特定のスタートアップが、私は、私は300のスタートアップを押しAzureの機械学習、で実験LinkedInのシートにhttps://developer.linkedin.com/docs/reference/industry-codes

を指定した産業の一つにマッピングするために属している業界に示すキーワードを抽出することですキーワード抽出は非常に悪く、私が達成しようとしているものにも近くないと分析されました。

データ科学者がこの問題にどのようにアプローチするのか知りたいですか?どこを見たらいいですか?私はどこにいけないのですか? Google Adwordsキーワードプランナーのようなキーワード分析ツールは、実行可能なオプションです

+0

あなたが目指していることを完全な例で明確にすることはできますか? – mjalajel

+0

クラスタリングのためのアルゴリズム:http://blog.funderbeam。com/5-competitive-startup-clustering-skills/ – user1808924

+0

http://cs.stackexchange.com/q/55138/755 –

答えて

0

テキストクラスタリングの使用。

ステップ1 テキストクラスタリングを使用して、すべての説明から主要な「トピック」を抽出します。 すべての記述

  • プロセスの

    1. 入力コーパス(Carrot2はここで役に立つことができます):Carrot2を使用したテキストのクラスタリング
    2. 各文書が話題

    ステップ#で標識される

  • 出力2 抽出したトピックをLinkedInのカテゴリに手動でマップします。

    ステップ#3 会社から横断する最初の2つのステップの出力を使用してください - >抽出トピック - >LinkedInのカテゴリテキスト分類を使用して

  • 2

    ...

    これをの分類の問題として扱うには、適切なLinkedInカテゴリでラベル付けされた一連のAngelListエントリであるトレーニングセットが必要です。これは手動で行うこともできますし、を雇って仕事をすることもできます。

    あなたは〜150のカテゴリがあるので、それぞれに20-30 * AngelListのエントリが必要だと思います。したがって、トレーニングセットは{input:angellist_description、result:linkedin_id}

    です。その後、結果の精度/精度を試して最適化するために、テキスト分類テクニックを掘り下げる必要があります。 「Taming Text」という本には、テキスト分類の全章があります。また、テキストベースの分類子を実装するための良いツールは、Apache SolrまたはApache Luceneです。

    * 20-30は、科学的な方法に基づいたものではなく、素早く個人的な見積もりです。良い推定方法のためにいくつかの方法をオンラインで調べることができます。