0

私は、クラスAの50%のインスタンスとクラスBの50%のインスタンスを持つデータセットを持っています。データセットをトレーニングセットとテストセットに分割したいと思います。私はRemovePercentageフィルターが存在することを知っていますが、クラスバランスについては気にしません。データセットから35%を削除するにはどうすればよいのですか?トレーニングセットに50/50クラスの分布を維持しますか?Wekaのデータセットからパーセンテージを削除するにはどうすればよいですか?

答えて

0

[OK]を、私は、フィルタStratifiedRemoveFoldsを使用する方法を見つけた:

ステップ1

はウェカExplorerで設定してデータを開き、教師インスタンスフィルタStratifiedRemoveFoldsを選択します。

ステップ2

あなたのトレーニングとテストセットに必要なサイズを決定します。セットのサイズを同じにする場合は、を選択します。numF​​olds 2.フィルタを適用します。これにより、元のセットのデータの50%を含むデータセットが生成されます。これはf.e.として設定されて生成

ステップ3

保存(あなたが67%の列データと33%の試験データが必要な場合は、numFoldsのための3を選びます) "train.arff"最初のセットが保存されたら、アクションを元に戻して、完全なデータセットを元に戻す必要があります。

ステップ4

StratifiedRemoveFoldsフィルタをクリックし、FalseからTrueにパラメータinvertSelectionを変更。このフィルタを適用すると、ステップ2のようにセットが生成されますが、データセットの残りの50%が含まれます。 test.arff」として

ステップ5

保存するには、この**。今、あなたはあなたのクラスのバランスを尊重し、電車やテストセットを持っている。

0

レイヤードフォールドフォールドをご覧ください。元のクラスの分布を維持しようと努めています。 http://weka.sourceforge.net/doc.stable/weka/filters/supervised/instance/StratifiedRemoveFolds.html

+0

それは折り畳みを削除層状を使用してテストセットを生成するために動作しますそれらのインスタンスはデータセット全体から削除されないので、トレーニングセットにはテストセットのインスタンスが残ります。 – Stanko

関連する問題