2016-04-09 11 views
0

私はWEKAを "weather.arff"データセットで使用しています。次に、与えられたスナップショットで見られるように、10倍のクロスバリデーションでNaive-Bayesクラシファイアを適用しました。私は絵の中で赤く印したものを除いて、ほとんどすべてを理解しています。誰もこの出力が正確に何を説明することができますか?

合計で9(Yes)+ 5(No) = 14がありますが、合計が合計を超えています。このyes(0.63)No(0.38)の意味は?それらは10倍CV後の分類器の性能に関連していますか?

outlook 
    sunny    3.0  4.0 
    overcast   5.0  1.0 
    rainy    4.0  3.0 
    [total]   12.0  8.0 

この合計は、ここで20.0ですが、私たちは14インスタンスを持っていますか? これらはそれぞれどのような晴れ、曇り、雨ですかはいいいえといいえか? 彼らはどこから来たのですか?

この加重合計は何ですか?どのように計算するのですか?それはNBにどのように関係しますか?

Click Here to see the picture

答えて

0

私の質問に対する答えが見つかりました。この問題は「ゼロ周波数問題」と呼ばれ、WEKAは各属性値に1を足したものです。理由は0の確率を避けるためです。そうでなければ、確率を掛けるとき、全体の確率は0になる。実際には、確率がゼロであることは、事件に関する新しい情報を推論しない。さらに、多数の「クロスバリデーション」反復やCVパフォーマンス推定とは関係ありません。

outlook    Yes   No 
    sunny    (2+1)=3.0  (3+1)=4.0 
    overcast   (4+1)=5.0  (0+1)=1.0 
    rainy    (3+1)=4.0  (2+1)=3.0 
    [total]    12.0   8.0 

実際のインスタンス= 9 + 5 = 14

もう一つ重要なことは、WEKAは曇り、気温、湿度、風の強いこの場合には、すべての属性にこれを行いますということです。

0

Cross Validation in Weka

における10倍のクロスバリデーションの説明90%の学習データと10%の試験データに分割データの10個のランダムに選択されたグループがあるがあります。 14行のデータを処理するには、トレーニング用に12行、テスト用に2行を取る可能性があります。 10回のテストをすべて実行すると、20件の結果が得られます。それは見通しについてのデータには意味をなさないが、風のための18の合計はその理論に疑問をもたらす。

私は、写真の上部にある0.63と0.38が、10回のテストからのイエスとノーレスポンスの割合を表していると思います。

関連する問題