2017-02-07 6 views
0

産業用デバイスで実行されるさまざまなアクティビティに関するオペレータからのコメントを表すデータがあります。このコメントは、日常のメンテナンス/交換作業のいずれかを反映している可能性があり、損傷が発生したことを示すことができ、損傷を修正するために修理しなければならなかった。 私は2つのバケットに分類される必要がある200,000文のセットを持っています - 修理/予定保守(または未定)。これらはラベルがないため、教師なし学習ベースのソリューションを探しています。以下に示すように文章の教師なし学習

いくつかのサンプルデータは、次のとおりです。

「モーターコイルは.Replacedモータを損傷し、」 「時折問題を起動置き換えスイッチ。」

「置き換え「見ベルト亀裂がインストールされた新しいベルトが。」ベルト " "オイル交換とクリーニングが完了しました "。 "予防メンテナンススケジュールを実行しました"

最初の3つの文章は修復とラベル付けされ、2番目の文はスケジュールされたメンテナンスとラベル付けされなければなりません。

この問題を解決するにはどうすればよいでしょうか。私は機械学習にいくつかの露出を持っていますが、私はNLPベースの機械学習を初めて熟知しています。

私はこのhttps://pdfs.semanticscholar.org/a408/d3b5b37caefb93629273fa3d0c192668d63c.pdf https://arxiv.org/abs/1611.07897

に関連する多くの論文を参照してくださいが、このような問題への任意の標準的なアプローチがある場合、あなたはそれが、この場合に思えるいくつかの信頼性の高いキーワード(動詞を使用することができますように

答えて

1

はそう理解したかったです)を使用して、NLPクラシファイアのトレーニングサンプルを作成します。または、KMeansまたはKMedioidsのクラスタリングを使用し、2をKとして使用すると、セットを分離するのに非常に効果的です。本当に関与したいのであれば、教師なしのトピックモデリングの一種であるLatent Derichlet Allocationのようなものを使うことができます。しかし、このような問題の場合、少量のデータでは、あなたはより多くのIMOになる結果にもっと不満を感じます。

OpenNLPとStanfordNLPの両方が、このためのテキスト分類器を持っているので、あなたが分類ルートを移動したい場合、私は次のことをお勧めします。

- Use key word searches to produce a few thousand examples of your two categories 
- Put those sentences in a file with a label based on the OpenNLP format (label |space| sentence | newline) 
- Train a classifier with the OpenNLP DocumentClassifier, and I recommend stemming for one of your feature generators 
- after you have the model, use it in Java and classify each sentence. 
- Keep track of the scores, and quarantine low scores (you will have ambiguous classes I'm sure) 

あなたはそのルートを移動したくない場合は、私は使用をお勧めしますSOLRやElasticSearchやお気に入りのRDBMSのテキスト索引作成のようなテキスト索引作成技術を使用して、「もっとよく似たような」タイプの機能を実行して、機械学習連続モデル更新ゲームを実行する必要はありません。

+0

オプションのおかげで、私はオプションを探るつもりです。しかし、KMeansを行うには、意味を保持するように、文をベクトル化するための良い提案は何でしょうか。 –

+0

"意味"は保存するのが難しい(そして定義する!)が、一般的にNGramはある程度の順序を保持するので、コンテキストを維持するのに役立つ。しばしば、私はBIGramsとBag Of Wordsの "features"の両方をクラスター化するでしょう。 1つの課題は、明らかに各文章が「実数」のベクトル空間ではないため、ベクトル正規化が疎であることです。少量のデータに対しては、簡単に正規化することができます。 – markg

関連する問題