categorical-data

0熱

1答えて

Rで大量のデータセットをインポートしていて、素早く列を通過し、列にカテゴリ値、数値、日付などがあるかどうかを確認する方法があるstr(df)またはclass(df)の場合、列のほとんどが誤って表示されます。たとえば、一部の列は数値としてラベル付けされていますが、実際には要素であることを示す列には10の一意の値（1〜10の範囲）しかありません。定格を表す11の一意の値しか持たない他の列があります.

1熱

1答えて

カテゴリ変数：ディメンションの不一致

私はパイプラインを構築しようとカテゴリ変数と import numpy as np import pandas as pd import sklearn from sklearn.base import BaseEstimator, TransformerMixin from sklearn import linear_model from sklearn.pipeline import

4熱

1答えて

パンダで未使用のカテゴリーをすばやく削除する方法はありますか？

私はいくつかのモデルをPythonで実行しており、カテゴリにデータサブセットがあります。メモリ使用量と前処理では、すべてのカテゴリ変数がカテゴリデータ型として格納されます。私の「グループ化」列のカテゴリ変数の各レベルについては、すべてのカテゴリ変数をそのサブセットに存在するものにリセットする必要がある回帰を実行しています。現在、合計実行時間の約50％を占めている.cat.remove_unu

1熱

1答えて

列車と試験データの異なる因子レベルの取り扱い

私はモデルを訓練するために使用しなければならない要素である20列の訓練データセットを持っています。予測と提出のための私のモデル。私は、カテゴリ（変数）のほとんどは、トレーニング中に異なるレベルを持っている初期データ探索を行うと、私たちはすべてのカテゴリvariables.To私の落胆を扱っているので、単に好奇心から、訓練データとテストデータレベルのレベルを確認したとテストデータセット。例えば t

0熱

1答えて

同じレベルでさまざまな要因のダミー変数を作成する

私は書式設定しようとしている主にカテゴリ変数（要素）を含むデータセットを持っています。データセットは、現在、このようなフォーマットされている： Obs X1 X2 X3 X4 ... X50 1 A B C D 2 B A D E 3 B C D A ただし、X1およびX2のためのAは同じ、すなわちX1及びX2は、因子が最初に検出されたものと考えることができるこ

-1熱

1答えて

エラーレートをマージまたは結合するにはどうすればよいですか？

9つの連続したデータ列と4つのカテゴリデータを持つデータセットがあるとします。 Matlabでは、列を2つのグループに分け、個別にトレーニング/テスト（ナイーブベイズ）を行い、連続する列のエラー率が0.45で、カテゴリの列のエラーが0.33であると判断します。私の質問は - 私はどのように組み合わせエラーを判断するのですか？ EDIT - シンプルな擬似コードの概要が追加されました： for x

0熱

1答えて

PysparkでLabeledPoint関数を使用するには、カテゴリ属性を数値属性に変換する必要がありますか？

私はPysparkを初めて使用しています。私はカテゴリの特徴を含むデータセットを持っており、pysparkからの回帰モデルを使用して連続値を予測したいと考えています。私はMLlibモデルの使用に必要なデータの前処理に悩まされています。

2熱

1答えて

Pythonは文字列をカテゴリに変換します - numpy

私は文字列変数day,car2を次のデータセットに変更しようとしています。 <class 'pandas.core.frame.DataFrame'> Int64Index: 23653 entries, 0 to 23652 Data columns (total 7 columns): day 23653 non-null object clustDep 23653 non-

1熱

1答えて

問題を変更してカスタムのJavaScriptでカテゴリ/文字列の機能を表現するように光沢のあるスライダー

年を表すシャイニースライダーを作成しようとしています。理想的には、月を整数ではなく文字列/文字として表示したい（1 = 1月、2 = 2月など）。私はthis answerにシャイニーのスライダーに表示できるように私につながったthis questionを見つけました。 012にあるJSコードをRに挿入します私の例に合わせて上記の答えを変更しようとすると、月の名前が正しく表示されますが、JSコ

0熱

1答えて

因子を2列の行列に変換するR

私は約0から21600まで続く連続する値の列を持っています。このデータを100の範囲でビニングし、その頻度を取得しようとしています（ [0,100] - 35、[100,200] - 57など）。私がやっている何はこれです：が<をビニング - カット（X、休憩の=のC（0、SEQ（100、21600、= 100））による）そして私は、データを取得します例えば、（7.5e + 03,7.6e