2017-01-20 3 views
1

私は、感想(正または負)ベースでレストランレビューを分類するプロジェクトに取り組んでいます。また、これらのコメントが食品、サービス、バリュー・フォー・マネーなどのカテゴリに属する​​場合は、分類したいと思います。インターネットで提供されている手順や方法論をリンクすることができません。誰でも詳細な方法や手順を提供して解決策を得ることができます。NLP-ステップを実行するか、テキストを分類するかどうかを決定しますか?

答えて

3

単語モデルの袋を使用するのはいかがですか。それは年齢を問わず試され、テストされています。それはより現代的な方法に比べていくつかの短所を持っていますが、あなたはまともな結果を得ることができます。そして、あなたを助けるために、インターネット上の材料のトンがあります。

  • ノーマライズ文書フォーム経口摂取へのあなたのパイプラインによって
  • はベクトルに文書を変換し、無関係な用語をフィルタリングするTF-IDFを行います。 Here is a good tutorial。ベクトル形式に変換します。
  • ドキュメントを分割し、ドキュメントのサブセットを取得し、クラス(センチメント)/コメントのタイプに従ってトレーニングデータに属するものをマークします。明らかにあなたの書類は2つのクラスに属します。
  • モデルをより堅牢にするために、いくつかの種類の次元削減テクニックを適用してください。good discussion is here
  • トレーニングデータでモデルをトレーニングしてください。あなたは感情とタイプのための少なくとも2つのモデルが必要です。一部のアルゴリズムはバイナリクラスのみで動作するため、コメントタイプ(Food、Value、Service)のモデル以上のものが必要になる場合があります。これは、コメントが複数のクラス(食品の品質と価値、または価値とサービス)に属する可能性があるため、良いことかもしれません。 Scikit-learnには良いモデルがたくさんあります。また、データサイエンスのGUIのようなものです。orange toolboxを強くお勧めします。
  • 検証セットを使用してモデルを検証します。正確さが満足できる場合(SVMのようなほとんどの古典的な方法では、90%を得られるはずです)、受信データ用に使用してください。
関連する問題