2016-06-22 1 views
-1

私は訓練されたモデルを使用してデータを分類しており、結果はサイズによって異なります。例えば最初にn個の行があり、それらを分類して結果セットXを取得すると仮定します。前のデータセットにm個の行を追加し、n + m個の行を持ち、それを分類すると、最初のn個の行についても結果が異なります。そして、はい、その変更は無視できません。誰かがこれについての洞察を提供できるかどうかをご確認ください。質問が明確でない場合は、私にお知らせください。私はRを使い、分類子はSVMです。結果は分類でデータセットのサイズによって異なります

+0

さらに詳しい情報を入力する必要があります。少なくとも:あなたはどの言語を使っていますか?どのクラシファイアを使用していますか? –

+1

私はRを使用しています。使用したクラシファイアはSVM – codex

+0

です。編集のおかげで – codex

答えて

0

あなたが正しく理解しているのは、SVMモデルがすべてのサンプルを空間上の点として表現しているためです。ただ、ウィキペディアから

別々のカテゴリーの例が可能 ほど広いです明確なギャップによって分割されるように、すべてのデータがマッピングされていることを意味します。

すべての例は、同じスペースにマップされ、ギャップのどちら側にあるかに基づいてカテゴリに属する​​と予測されます。

すべてのデータがマップされているため、新しいデータセットは新しい除算を意味し、最終結果に影響します。

+0

Ohh ...はい、今はっきりしています。しかし、テスト用のデータセットには何百万もの行があり、それを分割してまとめました。チャンク内にあるテキストのタイプは、最終結果に顕著に影響しますか? – codex

+0

私はそれほど重要ではないと言っていますが、安全な側にするために、データセットをランダムに数回に分けて結果を比較することができます。 –

+0

はい、データセットをランダムに分割しようとしましたが、違いがそれほど重要ではないと言いました。ありがとう – codex

関連する問題