2

私は、私が持っているデータを使って、私のマシン学習モデルにどのような機能があるのか​​を研究しています。私のデータには多くのテキストデータが含まれているので、貴重な機能を抽出する方法が不思議でした。私のこれまでの考え方とは異なり、これはしばしばBag-of-wordsやword2vecのような表現で構成されています:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction機械学習モデルの機能としてテキストセンチメントを使用しますか?

なぜ私の理解は限られているのですか?最初に数値を取得します。 (例:textBlob.sentiment = https://textblob.readthedocs.io/en/dev/、Google Clouds Natural Language = https://cloud.google.com/natural-language/

これに問題がありますか、またはこれらの値をマシン学習モデルの機能として使用できますか?

ご協力いただきありがとうございます!

答えて

0

もちろん、テキスト入力の単一数字をセンチメント分析で変換してから、この数値をマシン学習モデルのフィーチャーとして使用できます。このアプローチに間違いはありません。

質問は、テキストデータからどのような情報を抽出するかです。センチメント分析は、テキスト入力を-1から1までの数字に変換するので、数字はテキストの正または負の表現方法を表します。たとえば、満足度を測定するためのレストランに関する顧客のコメントの感情情報が必要な場合があります。この場合、センチメント分析を使用してテキストデータを前処理しても問題ありません。

また、感情分析には、正または負のテキストがどのようになっているかというアイデアが与えられます。テキストデータとセンチメント情報は、テキストの類似性に関する情報を提供しないため、この場合は有用ではありません。したがって、word2vecやbag-of-wordなどの他のアプローチが、それらのタスクのテキストデータの表現に使用されます。これらのアルゴリズムは単一の数値のテキストインスタンスのベクトル表現を提供するためです。

結論として、アプローチは特定のタスクのデータから抽出する必要がある情報の種類によって異なります。

+0

ありがとうございます!感謝します、ありがとう。私はyoutube、twitterとfacebookからのuserdataに基づいて映画の箱入りの成功を予測するモデルを作っています。感情は貴重なものだと私は思います。また、私の場合、テキストをクラスタリングすることも可能ですか? – Lourens

+0

いいえ、あなたの問題はクラスタリングではありませんが、成功を測定する方法に基づいて回帰または分類タスクの基礎になります。感情分析があなたの問題を解決すると思います。なぜなら、ユーザのコメントが興行収入よりも映画について肯定的であれば、それは本当に成功し、逆もまた同様です。 –

関連する問題