2013-02-27 3 views
21

R Factor variableに最も近いのはPython pandasですか?Python Pandasの因子変数と一番近いもの

+1

[本](https://groups.google.com/forum/#!msg/pydata/figElKrdwcI/dISL07Id7dUJ)を参照。これはfactor列として 'pandas.Factor'を追加したものです。しかし、私はこれが厳密には同等ではないと思っています。特に欠けているデータの場合です。 – agstudy

+1

http://stackoverflow.com/questions/7813132/convert-array-of-string-category-to-array-of-int-from-a-pandas-dataframe – Raufio

答えて

18

この質問は1年前からのようですが、まだ開いているので更新しています。パンダはcategorical DTYPEを導入しており、それはR.でfactorsと非常によく似た動作の詳細については、このリンクをご覧ください。

リンクからスニペットを再現

http://pandas-docs.github.io/pandas-docs-travis/categorical.html

に「ファクター」の変数を作成する方法を示した上でパンダ。

In [1]: s = Series(["a","b","c","a"], dtype="category") 

In [2]: s 
Out[2]: 
0 a 
1 b 
2 c 
3 a 
dtype: category 
Categories (3, object): [a < b < c] 
6

モデリングなどをお探しの場合は、patsy library内の要因に多くの良い点があります。私は自分自身でこれに苦労していることを認めます。私はthese slidesが役に立ちました。私はもっ​​と良い例を挙げることができれば幸いですが、これは私が得た限りです。

-1
C# array containing category data 
V # array containing numerical data 

H = np.unique(C) 
mydict = {} 
for h in H: 
    mydict[h] = V[C==h] 


boxplot(mydict.values(), labels=mydict.keys()) 
関連する問題