2016-04-27 6 views
0

@ j.jerrod.taylorの答えに応じて、誤解をなくすために私の質問を言い換えることができます。ビン境界を使用したスムーズな値:下限と上限の間に右に座っている値はどこで設定しますか?

私はData Miningを初めて使い、「Bin Boundaries」を使って等幅/距離ビニングを使用してデータをスムージングすることでノイズの多いデータを処理する方法について学んでいます。データセット1,2,2,3,5,6,6,7,7,8,9を仮定します。

  1. 距離ビニングを3つのビン、およびビンの境界によって
  2. 滑らかな値で1位にビニング値に基づいて:私が実行したいです。 (漢、Kamber、ペイ、2012、データマイニングの概念とテクニック、セクション3.2.2ノイズの多いデータ)での定義に基づいて

:ビンの境界、最小とすることにより

で平滑指定されたビンの最大値はビン境界として識別されます。各ビンの値は、最も近い境界値に置き換えられます。

  • 区間幅=(最大 - 最小)/ K =(9-1)/ 3 = 2.7
  • ビン間隔= [1,3.7)、[3.7,6.4)、[6.4、 9.2]ビン境界:(1,3)|ビン境界によるスムーズな値:1,1,1,3

  • オリジナルBin2:5,6,6 |ビン境界:(5,6)|ビン境界によるスムーズな値:5,6,6
  • オリジナルBin3:7,7,8,9 |ビン境界:(7,9)|ビンの境界による平滑値:7,7、、9

質問: - ビン境界法を用いたビニングするとき、それは7から+1だからは8は、BIN3中に属さず、-1 9から?

答えて

0

正解WITH UPDATE:

私のクラスは最終的にこのトピックをカバーし、私自身の質問に対する答えは、8が7または9のいずれかに属することができるということです。このシナリオは、値がいずれかの境界から等しい距離である「タイブレーク」として説明されています。そのようなすべての値が同じ境界に一貫して結び付けられてもよい。

ここだが、彼らが等しい距離値が発生した際に「壊すネクタイ」を使用して説明するNIH分析紙の本当の例です。http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3807594/

0

これが問題になる場合は、ビンの幅を正しく計算していません。たとえば、ヒストグラムを作成することは、データのビニングの例です。

thisの応答は相互認証されています。しかし、一般的には、整数をbinにしようとすると、境界は2倍になります。

たとえば、2と6の間のすべてを1つのビンに入れたい場合、実際の境界は1.5から6.5になります。すべてのデータが整数なので、分類されないものはありません。

編集:データの離散化に関するセクションは、第3章ではなく第2章に記載されているので、私は別のバージョンを持っているようですが、同じ本を持っています。あなたの質問に基づいて、あなたはまだそのコンセプトを本当に理解していないようです。

以下は、88ページの第2章の「データ前処理」を除きます。私はテキストの第2版を使用しています。例えば

、値が等しい幅 または等しい周波数ビニングを適用することにより離散化し、次にビンによって各ビン値を交換することができることを意味または 中央値属性、ビンによって平滑化手段又はビンによって平滑化として中央値である。 8はbin 3以外の場所には属しません。これは2つのオプションを提供します。ビン3に収まるすべての数値の平均値/中央値を取るか、ビン3をカテゴリとして使用することができます。

あなたの例の建物は、ビン3の4つの数字の平均を取ることができます。これは7.75となります。 7,7,8,9の代わりにそのビンにある4つの数字に7.75を使用します。

2番目のオプションはビン番号を使用することです。例えば、ビン3のすべてが3のカテゴリラベルになるだろう、ビン2のすべてが2のラベルになるだろう、など

+0

あなたは「ビンの境界で値を平滑化」に関する私の質問を誤解し、ビンの」境界線"私は私の質問につながるすべての詳細を含めるように私の質問を改めた。 – user2771721

+0

@ user2771721私は何かを誤解しなかった。私の編集を参照してください。 –

関連する問題