categorical-data

0熱

1答えて

私は、2つの独立したカテゴリ変数と1つの数値応答変数で回帰モデルを適合させています。私は変数CategoryにAとBの2つのレベルを持っています。色、赤、オレンジ、黄の3つのレベル。しかし、これらのレベルのサイズは大きく異なります。ここに例を示します： Category Color Price A R 12 A R 43 A Y 32 A Y 31

2熱

2答えて

r2dtable contingencyテーブルが集中しています

Rのr2dtable関数を使用して、指定された余白を使って不調和テーブルを生成しています。しかし、得られたテーブルの値を調べると、中間点にいくらか集中しているように見えます。例： set.seed(1) matrices <- r2dtable(1e4, c(100, 100), c(100, 100)) vec.vals <- vapply(matrices, function(x) x[1

1熱

1答えて

Rはヨーロッパの形式の数値を要素として読み取る

R3.1.2では、データセットをアップロードしました。しかし、私の数値はFactorsとして読みます。 as.numeric(as.character(athene)) しかし、この行を入力するとき、次のメッセージが発生します： 'NAs introduced by coercion' とNASの多くが発生したオンラインで検索することで、私はこのコードは数値的に要因から私の値を変更すべきである

1熱

1答えて

カテゴリーパラメータの合計、グループ別のカウント頻度、既存の行列への出力の追加

私のデータ（以下のDPUT）には、科学論文に関するさまざまな情報を保持する多くのカテゴリカルバイナリパラメータがあります。これらはすべて0 =不在/いいえまたは1 =存在/はいです。この研究には政府の資金援助がありますか？収穫は紙で議論されていますか？ 30種類以上のパラメータがあります。私はまた、鉛の著者の国籍を持っています。私がしようとしていることの1つは、政府（GVT）から資金提供されている

2熱

1答えて

SparkのStringIndexerでNULL値を持つ文字列をカラムに変換する

私はいくつかのカテゴリの文字列を持つデータセットを持っており、それらをdouble型で表現したいと考えています。私はこの変換のためにStringIndexerを使用していましたが、NULL値を持つ別のデータセットで試したところ、java.lang.NullPointerExceptionエラーが発生し、動作しませんでした。よりよく理解するためには、ここに私のコードです： for(col <- c

5熱

1答えて

各ボックスのラベルにモザイクプロットが表示され、すべての観測の名前と割合が表示されます

プロット内にラベル付きモザイクプロット（Rパッケージvcd、例：http://cran.r-project.org/web/packages/vcd/vignettes/residual-shadings.pdf参照）を作成します。ラベルには、さまざまな要因の組み合わせまたはカスタムラベルと、このカテゴリの組み合わせにおける合計の観測値の割合が表示されます（例：http://i.usatoday.

1熱

1答えて

georreferencedデータに基づいてカテゴリ変数を設定する

私は自分で解決できない小さな問題があります。私は、各サンプルステーションの環境情報と緯度と経度を含むデータフレームを持っています。私は自分の研究領域を4つの小さな領域に分けたいと思っています（下の画像を参照してください）。私の穴のデータフレームに新しい列に含める情報があります。つまり、新しい列は4つのレベルの要素でなければなりません。各レベルは、各領域の制限に基づいて特定のジオロケーションに対応

5熱

1答えて

R coxph（）警告：Loglikが変数の前に収束しました

coxph（）を使用する際に問題があります。私は2つのカテゴリ変数を持っています：Sex and Probable Cause。プレディクタ変数として使用したいです。性別は男性/女性の典型ですが、考えられる原因には5つの選択肢があります。警告メッセージの問題は何か分かりません。なぜcofidence間隔は0からInfになり、p値はそれほど高いのですか？ > my_coxph <- coxph(

0熱

1答えて

意思決定ツリーのカテゴリ機能を扱うための戦略？

ノードでは、カテゴリフィーチャのために、フィーチャのm個の異なる値を2つのグループに分割するすべての（2^m -2）/ 2の可能な方法を現在試しています。あるフィーチャと同じ値を持つすべてのサンプルは、そのフィーチャを考慮するとグループとして一緒に移動されます。問題は、mが35（国など）の場合、17兆の分割を試す必要があることです。カテゴリの機能を処理する別の方法はありますか？