2016-10-11 5 views
0

私の目標は、コンピュータで生成されたスピンコンテンツを検出できるようにすることです。スピンテキストの例をいくつか紹介します:文章が判読可能かどうかを確認するにはどうすればいいですか?

"広告組織の流行に敏感な明白な芸術として、オークションの顧客の作物や軍隊を目的のマーケットプレイスにあなたの元の技術と技術で能力。"

「実際のリンゴのiPhoneアプリケーションショップは、間違いなく有用なアプリケーションの豊富な大切な住居です。」

基本的に、コンピュータは単語をさまざまな同義語に置き換えて、コンテンツを迂回詐欺検出に迂回するようにしました。私の目標は、この不器用なテキストを検出できるシステムを作ることです。これを達成するための方法は何ですか?

答えて

1

あなたがしたいのは、ngramを作成することですlanguage model。 ngram言語モデルは、言語における単語対の出現の統計的表現であり、機械翻訳、感情分析、およびムービーレビューが肯定的か否定的かを予測するなどの分類タスクに使用される。分類作業は、各文がスピンされたコンテンツであるかどうかで行われます。

ナイーブベイズ(implemented in NLTK)のような分類モデルはあなたの問題を助けることができます。トレーニングでは、言語モデルを作成し、そのモデルを予測に使用します。モデルを訓練するには、スピンしたコンテンツの例と標準的な英語テキストが必要です。より多くのあなたが両方のより良い!すべての文書(各文章を1つの文書として扱うことができます)には、その内容がスピンされているかどうかを示すラベルを付ける必要があります。

ここに英語以外のテキストの一覧があります。corpora

もっと複雑なモデルがうまくいくかもしれませんし、それらを並行して非常に簡単に比較できます。私はscikitを学ぶのが好きです。

関連する問題