categorical-data

    0

    1答えて

    Rで大量のデータセットをインポートしていて、素早く列を通過し、列にカテゴリ値、数値、日付などがあるかどうかを確認する方法があるstr(df)またはclass(df)の場合、列のほとんどが誤って表示されます。 たとえば、一部の列は数値としてラベル付けされていますが、実際には要素であることを示す列には10の一意の値(1〜10の範囲)しかありません。定格を表す11の一意の値しか持たない他の列があります.

    1

    1答えて

    私はパイプラインを構築しようとカテゴリ変数と import numpy as np import pandas as pd import sklearn from sklearn.base import BaseEstimator, TransformerMixin from sklearn import linear_model from sklearn.pipeline import

    4

    1答えて

    私はいくつかのモデルをPythonで実行しており、カテゴリにデータサブセットがあります。 メモリ使用量と前処理では、すべてのカテゴリ変数がカテゴリデータ型として格納されます。 私の「グループ化」列のカテゴリ変数の各レベルについては、すべてのカテゴリ変数をそのサブセットに存在するものにリセットする必要がある回帰を実行しています。 現在、合計実行時間の約50%を占めている.cat.remove_unu

    1

    1答えて

    私はモデルを訓練するために使用しなければならない要素である20列の訓練データセットを持っています。予測と提出のための私のモデル。 私は、カテゴリ(変数)のほとんどは、トレーニング中に異なるレベルを持っている初期データ探索を行うと、私たちはすべてのカテゴリvariables.To私の落胆を扱っているので、単に好奇心から、訓練データとテストデータレベルのレベルを確認したとテストデータセット。例えば t

    0

    1答えて

    私は書式設定しようとしている主にカテゴリ変数(要素)を含むデータセットを持っています。 データセットは、現在、このようなフォーマットされている: Obs X1 X2 X3 X4 ... X50 1 A B C D 2 B A D E 3 B C D A ただし、X1およびX2のためのAは同じ、すなわちX1及びX2は、因子が最初に検出されたものと考えることができるこ

    -1

    1答えて

    9つの連続したデータ列と4つのカテゴリデータを持つデータセットがあるとします。 Matlabでは、列を2つのグループに分け、個別にトレーニング/テスト(ナイーブベイズ)を行い、連続する列のエラー率が0.45で、カテゴリの列のエラーが0.33であると判断します。私の質問は - 私はどのように組み合わせエラーを判断するのですか? EDIT - シンプルな擬似コードの概要が追加されました: for x

    0

    1答えて

    私はPysparkを初めて使用しています。私はカテゴリの特徴を含むデータセットを持っており、pysparkからの回帰モデルを使用して連続値を予測したいと考えています。私はMLlibモデルの使用に必要なデータの前処理に悩まされています。

    2

    1答えて

    私は文字列変数day,car2を次のデータセットに変更しようとしています。 <class 'pandas.core.frame.DataFrame'> Int64Index: 23653 entries, 0 to 23652 Data columns (total 7 columns): day 23653 non-null object clustDep 23653 non-

    1

    1答えて

    年を表すシャイニースライダーを作成しようとしています。理想的には、月を整数ではなく文字列/文字として表示したい(1 = 1月、2 = 2月など)。 私はthis answerにシャイニーのスライダーに表示できるように私につながったthis questionを見つけました。 012にあるJSコードをRに挿入します 私の例に合わせて上記の答えを変更しようとすると、月の名前が正しく表示されますが、JSコ

    0

    1答えて

    私は約0から21600まで続く連続する値の列を持っています。 このデータを100の範囲でビニングし、その頻度を取得しようとしています( [0,100] - 35、[100,200] - 57など)。私がやっている何 はこれです: が<をビニング - カット(X、休憩の=のC(0、SEQ(100、21600、= 100))による) そして私は、データを取得します例えば、(7.5e + 03,7.6e