私は〜300kデータ点の散布図を生成しており、構造が見えない場所では非常に混雑しているという問題があります。 !散布図の最も濃密な領域の輪郭をプロットする
私はプロットに最も密な部分の等高線プロットを生成し、より密度の低い領域をデータポイントscatter()
で残したいと思っています。
データポイントごとに最近傍距離を個別に計算してから、この距離が特定の値に達すると、輪郭線を描いて塗りつぶしてから、はるかに大きな値)ちょうど散布をしてください...
私は数日のうちに試して失敗しましたが、私は従来の等高線図がこの場合にはうまくいくとは確信していません。
私はコードを提供しますが、それはとても面倒で、おそらく問題を混乱させるだけです。そしてそれはそれが働いた場合、おそらくちょうど私のPCをクラッシュさせるように計算集約的です!
ありがとうございました!
p.s.私は検索して答えを探しています!私はそれが現れたすべての結果についても可能ではないと確信しています!
編集:これは、300kサンプルの構造内の特定の点がどこにあるのかを確認することです。ここでは例のプロットですが、私のポイントは3つのdiffに散在しています。色。
データから無作為に1000のデータポイントをサンプリングしてテキストファイルとしてアップロードしようとします。 乾杯。 :)
編集:ちょっと、 ここでは、いくつかのサンプルデータ1000行 - ちょうど2つの列[X,Y]
(または上記のプロットから[g-i,i]
)のスペースが区切られています。皆さん、ありがとうございました! the data
これらの値は、混雑した方法に応じて、あなたはおそらくちょうど '散布(X、Y、アルファ= 0.1)'または何らかの適した小さな値をすることによって、いくつかの構造を引き出すことができます。あなたが提案したことをするために、私はカーネル密度推定値を作成します( 'scipy.stats.kde'参照)。 – chthonicdaemon
2dヒストグラムを使用してデータを表示してみませんか? –
@FriskyGrubあなたは、あなたの実際のデータと同じタイプ/形状/ etcのランダムなデータを提供することができます。最初の場所に実際のデータを生成した複雑なステップを必ずしも投稿する必要はありません。私たちがあなたに役立つ回答をもっと簡単に提供します。 – YXD