random-forest

0熱

1答えて

randomForestを使用して53の因子レベル以上のカテゴリ値を扱うにはどうすればよいですか？

あなたは以下を参照することができますように私は、トレーニングデータセットを持っている： 'data.frame': 229907 obs. of 19 variables: $ categories : Factor w/ 2061 levels "","Accessories,Fashion,Shopping,Cosmetics & Beauty Supply,Beauty & Spas

0熱

1答えて

PysparkのVectorAssemblerでの文字列変数の使用方法

Pysparkでランダムフォレストアルゴリズムを実行します。 Pyspark documentationには、VectorAssemblerが数値データ型またはブール型データ型のみを受け入れることが記述されています。だから、私のデータにStringtype変数、都市の名前などが含まれている場合は、ランダムフォレストの分類/回帰をさらに進めるために、それらをワンホットエンコードする必要がありますか？

0熱

1答えて

連続データのランダムフォレストモデルの精度を評価する最良の方法は？

私は、変数を予測するランダムなフォレストモデルを持っています。この変数は、カテゴリカルクラスではなく、0から1までの数値です。この場合、生成されたモデルの精度を評価する最善の方法は何ですか？トレーニングとテストの部分を分割し、テストクラスの予測値と観測値の線形相関を単純に計算する必要がありますか？もっと洗練されたソリューションはありますか？もしそうなら、どのパッケージがこれを実装していますか？

0熱

2答えて

XGBoost/CatBoostで大量のカテゴリを持つカテゴリ変数

ランダムなフォレストに関する質問があります。ユーザーとアイテムとのやり取りに関するデータがあるとします。アイテムの数は約10,000です。ランダムフォレストの出力は、ユーザーが（推奨システムのように）やりとりする可能性が高いアイテムでなければなりません。どのユーザーにとっても、過去にユーザーがやりとりしたアイテムを説明する機能を使用したいと考えています。しかし、カテゴリの製品機能をワンホットエンコ

-2熱

2答えて

ランダムフォレストのネガティブテストスコア

こんにちは、私はプロダクトlogerrorにランダムなフォレストクラシファイアを使用しています。ログエラーには、両方とも= ve & -veの値が含まれています。異なる設定で分類子を実行した後。私は約0.8のトレーニングテストのスコアを得ることができますが、テストのスコアは常に負です。どうしてこんなことに？予測にabs（ログエラー）を使用する必要がありますか、またはランダムフォレストの選択に間違

2熱

2答えて

が

問題呼び出す：を私はその意志スタンドアロンのExcelのツールで、このモデルを展開する必要があるR.の訓練を受けたランダムフォレストモデルを持っていますセールスネットワーク上の350人が、スプレッドシートに入力したデータに基づいてユーザーがリアルタイムで予測を実行できるようにします。どうすればいいですか？制約：自分のローカルマシン上でRをインストールするには、ユーザーが必要とするオプション

1熱

1答えて

並列処理から作成したランダムフォレストモデルの採点

並列処理のためにforeachパッケージを使用してランダムフォレストを実行しようとしています。ここに私は実行しているコードです。 library(doParallel) library(doMC) library(foreach) library(randomForest) Train <- read.csv("Train_Parallel.csv") Test <- read.csv

0熱

1答えて

ValueError：不明なラベルの種類： '不明' - ラベルは数値です

私は、バイナリ分類問題のランダムフォレスト分類器を構築しています。私のラベルはすべて数値です。 print labels.unique() [1 0] print type(labels) <class 'pandas.core.series.Series'> print labels.shape (3000,) しかし、私は、私はこのエラーに ValueError: Un

1熱

1答えて

Pythonで10倍のK倍のクロスバリデーションのための不均衡なデータセットの精度、リコール、およびf1スコアの計算方法

私はバイナリ分類問題を含む不均衡なデータセットを持っています。ランダムフォレストクラシファイアを構築し、折りたたみを次のように kfold = model_selection.KFold(n_splits=10, random_state=42) model=RandomForestClassifier(n_estimators=50) は、私は私の予測を計算しています print("Acc

0熱

1答えて

ランダムフォレストコードのデータセットを変更すると異常な結果が発生する

hereに基づいてランダムフォレストコードを使用します。ここでは、（質問を見るために最後までスキップ）です： # Select the best split point for a dataset def get_split(dataset, n_features): class_values = list(set(row[-1] for row in dataset))