DBに保存する100万文 - 関連性の低い英語の単語を削除する

感情から肯定的/否定的な単語を抽出してNaive Bayes分類子を訓練しようとしています。例：DBに保存する100万文 - 関連性の低い英語の単語を削除する

私は:)この映画を愛する）

雨が降るとき、私は嫌い:(

アイデアは、私が使用しemoctionsに基づいて正または負の文章を抽出しているが、分類器を訓練するために、

問題は100万以上の文があるので、単語ごとに訓練すれば、データベースはトスになります。関連性の低い単語の例をすべて削除したい'私'、 'これ'、 'いつ'、 'それ'なので、データベースクエリを作成する回数が少なくて済む

はありがとう、私にそれ

を行うためのより良い方法を提案するために、この問題を解決するには、私を助けてください

2つの一般的なアプローチがあり

出典

2010-11-23 daydreamer

をこのをチェックアウトする場合があります否定的な文章。これは、あなたが行くか、プレパスとして自動的にいくつかの単語を失格させるアルゴリズムを設計するのに役立つかもしれません。 – aschepler

「データベースはトスに行く」というフレーズは+1 – Stompchicken

これはデータベースでなければならないのですか？フルテキスト検索エンジンはどうですか？または単純なデータ構造ですか？感情分析のさまざまな要件についてはhttp://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Full-Text-Search-Engine-versus-DBMS –

あなたは、私が「私は」、「この」、「」など、あなたの「非関連」の言葉は、「それは、正の両方で非常に頻繁に表示されるはずですよね http://books.google.com/books?id=CE1QzecoVf4C&lpg=PA390&ots=OHuYwLRhag&dq=sentiment%20%20mining%20for%20fortune%20500&pg=PA379#v=onepage&q=sentiment%20%20mining%20for%20fortune%20500&f=false

出典

2010-11-30 03:55:24 Sap

@NLP、おい！私はそれが好き、共有してくれてありがとう:) – daydreamer

確かに、そのリンクのおかげで;他の人々がこれをやっていることを見て興味深い... –

：

がstop listをコンパイルしますが。
POS tagあなたが興味がないと思うそれらの品詞を投げ捨てる。

どちらの場合でも、どの単語/ POSタグが適切であるかを判断するには、PMIなどの小節を使用します。

あなたの情報検索からの標準的なストップリストは、感情分析では機能しない場合があります。私は最近、それが主張されている論文（参考文献、ごめん）を読みました！と検索エンジンで一般的に削除されている？は、感情分析のための貴重な手掛かりです。（そうかもしれない「私は」、ESPあなたも中立のカテゴリを持っている場合。。）

編集：あなたも安全に（そうhapax legomenaと呼ばれる）トレーニングセットに一度だけ発生したすべてのものを捨てることができます。一度発生する言葉は分類器の情報価値はほとんどありませんが、多くのスペースが必要です。

出典

2010-11-24 10:58:03

+1を参照してください。 –

+1、アルゴリズムをトレーニングする前にどの単語を削除してどの単語がそれほど重要でないかを知るのは難しいです。 – Skarab

データベースから取得するデータの量を減らすには、データベースに単語*を数字**にマッピングするテーブルを作成し、トレーニング用の数字ベクトルと完全な文のみを取得するセンチメントを手動でマーキングする。

| *科学的な出版物は私の心には出ませんが、おそらく単語の代わりにstems or lemmasを使うだけで十分です。それは辞書のサイズを減らすでしょう。

| **この操作でデータベースが消去される場合、テキストインデックスエンジン（例：apache lucene）を使用するローカルアプリケーションで辞書を作成し、その結果のみをデータベースに保存することができます。

出典

2010-11-24 18:28:41 Skarab

ps。また、文章の長さをフィーチャーとして含めることにします。 – Skarab

DBに保存する100万文 - 関連性の低い英語の単語を削除する

答えて

関連する問題