2012-09-03 15 views
5

最近私はwekaの使用を開始し、Naive Bayesを使用してツイートを肯定的または否定的に分類しようとしています。だから私は私がラベルを与えたつぶやきと、すべてが "陽性"というラベルをつけたつぶやきのテストセットを持ったトレーニングセットを持っています。 「私はテストセットでツイートのラベルを変更する場合は、6、8%正しく分類されたインスタンスの意味weka

正しく分類インスタンス:69 92% 間違って分類されたインスタンス私はナイーブベイズを実行したときに、私は次のような結果を得ますネガティブ」と再びナイーブベイズを走った、結果が反転されています

正しく分類インスタンス:6 8% 誤って分類インスタンス:69 92%

私が正しく分類インスタンスはナイーブベイズとその正確さを示していると考えそれは同じでなければならないテストセットのつぶやきのラベルに関係します。データに問題がありますか、正しく分類されたインスタンスの意味が正しく理解されていませんか?

おかげで、あなたの時間のためにたくさん、

Nantia

答えて

5

テストセットのラベルは、実際の正しい分類することになっています。パフォーマンスは、テストセット内の各インスタンスの分類に関する最良の推測を分類者に与えるように求めることによって計算されます。次に予測された分類が実際の分類と比較されて精度が決定されます。したがって、あなたが与えた '正しい'値を反転すると、結果も反転されます。

+0

素早く回答いただきありがとう@Junnux&Antimonyありがとうございました!テストセットは次のように作成されます:私は自分のプログラムに検索タームを与え、twitter apiはこの用語を含むつぶやきを返し、これらのツイートはテストセットを構成し、Naive Bayesが実行されます。だから、私はテストセットの正しいラベルを追加することができません。私があなたをよく理解していれば、この場合、テストセットのラベルの分類子の回答を得ることができますが、私は正確さを評価することができません。私はそれを正しく得たか? – nadia

+0

トレーニングセットのラベルが少なくともあるとします。あなたがそれを持っていなくても、あなたは間違ったアプローチを取っています。 Naive Bayesは教師付き学習のアルゴリズムです。ラベルがない場合、探しているのは__unsupervised__学習です。これは異なるアルゴリズムセットを必要とし、一般的にはもっと悪い結果をもたらします。私は教師なし学習のためにあなたのデータにラベルを付ける方法やGoogleを見つけることをお勧めします。 – Antimony

+0

はい、私の目的は教師あり学習なので、私の訓練セットのラベルがあります。もう一度ありがとう!あなたは本当に私がいくつかのものを整理するのを手伝ってくれました。 :) – nadia

1

トレーニングセットに基づいて、インスタンスの69.92%が陽性と分類されます。テストセットのラベル、つまりの正解がの場合は、すべて正の値であることを示し、69.92%が正しいことを示します。テストセット(したがって分類)が同じで、正しい答えを切り替えると、正解率もまた逆になります。

クラシファイアを評価するには、テストセットの真のラベルが必要です。それ以外の場合は、クラシファイアの回答を真の回答と比較することはできません。あなたはこれを誤解しているかもしれないと私には思われます。目に見えないデータのラベルを取得することはできますが、その場合は分類子の精度を評価することはできません。

関連する問題