2016-08-07 10 views
-1

私は何年もの間にニュースのデータを持っており、テストニュースを与えるたびにそのニュースが関係する業界を返します例えば「製造」または「金融」のようなものです。それは分類アルゴリズムを使って行うことができますが、あいにく私はデータを訓練するための分類子を持っていません。データは以下の形式であったであろう場合、私は産業分類するための分類アルゴリズムを適用することができトレーニングデータに分類子を含まない分類

ID | News  
1 | News1  
2 | News2  
3 | News3 

ID | News | Industry Related to 
1 | News1 |  Manufacturing 
2 | News2 |  Finance 
3 | News3 |  e-commerce 

をしかし、あなたはニュースのAPIは、関連業界に提供しません知っている私のデータは、このようになりますニュースに。この場合、私のモデルを訓練するにはどうすればよいですか?

答えて

1

これを達成するにはさまざまな方法があり、それぞれに長所と短所があります。あなたが説明する問題は、簡単なものではありません。

これは、あなたが達成しようとしていることに大きく依存するため、この質問に対して一般的かつ正解を与えることはできません。

あなたがしようとしているのは、unsupervised learning です。一般に、使用できるGoogleの用語は「ラベルのないデータを分類する」ことです。

このトピックのWikipedia記事は、使用する可能性のあるテクニックの非常に優れた概要を示しています。機械学習の問題はしばしば明確ではなく、プロジェクトごとに非常に多く選ばれたアルゴリズム(データセットのサイズ、処理能力、誤分類のコストなど)によって、誰もあなたに一般的な完全な答えを与えることはできません実際にあなたのデータと問題を詳細に知らなくても。

私の最初のアプローチは、テキストのcosine-similarityを使用して、クラスタリングアルゴリズム(k-means-clustering(Wikipedia記事、私は2つ以上のリンクを投稿することはできません)を参照してください) )を使ってNewsの異なるクラスタを生成し、これらのクラスタを調べ、手作業でラベル付けし、その結果をトレーニングデータとして使用するか、tf * idfを使用してラベルを自動的に生成します(Wikipedia記事を参照してください)

しかし、この結果は非常に良い、非常に悪い、または間にあるものである可能性があります。

+0

ありがとうございます。私は教師なし学習とLSHの文書間のコサイン距離の類似性の基礎を学んだが、私がここでそれを適用できると考えることができるまでには達していない。 – muazfaiz

0

最近のゼロショットと数回の学習の進歩により、わずかな(100〜200トレーニングデータ)またはトレーニングデータなしでクラシファイアを構築することができます。あなたのクラシファイアは、管理された分類子のすべての利点を保持し、あなたのカテゴリを決定するコントロールを提供します。

私はこのようなシステムを構築しており、あなた自身のカテゴリとデータでdemoを試してみてください。