x
とy
の両方の値を持つデータセットの二変量ccdf
をプロットしようとしています。二変量CDF/CCDF分布Python
単変量私は非常にうまくプロットすることができますが、下は入力、コードは一意のデータセットです。
入力:これはデータポイントの最初の20行です。入力には1000sの行があり、ユーザーとキーワードの頻度関係があるので、col[1]
とcol[3]
をプロットする必要があります。
tweetcricscore 34 #afgvssco 51
tweetcricscore 23 #afgvszim 46
tweetcricscore 24 #banvsire 12
tweetcricscore 456 #banvsned 46
tweetcricscore 653 #canvsnk 1
tweetcricscore 789 #cricket 178
tweetcricscore 625 #engvswi 46
tweetcricscore 86 #hkvssco 23
tweetcricscore 3 #indvsban 1
tweetcricscore 87 #sausvsvic 8
tweetcricscore 98 #wt20 56
コード:univeriateデータセット
import numpy as np
import matplotlib.pyplot as plt
from pylab import*
import math
from matplotlib.ticker import LogLocator
data = np.genfromtxt('keyword.csv', delimiter=',', comments=None)
d0=data[:,1]
X0 = np.sort(d0)
cdf0 = np.arange(len(X0))/float(len(X0))
ccdf0 = 1 - cdf0
plt.plot(X0,ccdf0, color='b', marker='.', label='Keywords')
plt.legend(loc='upper right')
plt.xlabel('Freq (x)')
plt.ylabel('ccdf(x)')
plt.gca().set_xscale("log")
#plt.gca().set_yscale("log")
plt.show()
私は二変量データポイントのためのいくつかのオプションを探しています。私はSeaborn Bivariate Distributionを参照しましたが、私はそれを適切な文脈で私のデータセットに入れることができません。
python、matplotlib、seaborn内の代替提案は、歓迎します.. ありがとうございます。
この例では、列の1つに別個の値しかないので、二変量密度推定のポイントがわかりません。 –
私はそれが最初の20行だけであることを言いました..データはすでにソートされています..両方の列は異なる値を持っています –
次に、より代表的な例を更新する必要があります。ランダムなデータで十分です。 –