data-science

1熱

1答えて

PandasとSciKitLearn Stackを使用してPythonスクリプトのパフォーマンスを向上させるには？

私は、PythonとSciKitLearnスタックを使用してブラジルの都市間の気候データを一致させるためのスクリプトを作成しました。現時点では、私はMongoDBを使って60M +のエントリを持つ気候コレクションを、Pandasはこれらのテーブルを照会して参加しています。各ブラジルの都市の気候データを簡単なアルゴリズムで比較して、都市の各ペアの最終得点を生成します。問題は、時間がかかりすぎると

2熱

2答えて

トレインアンドテストデータを転用に使用できますか？

は興味深いことに、私は両方のStackOverflowや他のサイトでこの程度異なった答えの多くを参照してください。私のトレーニングデータセットで作業している間を、私は決定木モデルを使用して、特定の列の欠損値を帰属しました。だから私の質問です。転用のためのモデル（予測ではなく）を作成するのに、利用可能なすべてのデータ（Training & Test）を使用するのは公正でしょうか？また、テストセット

0熱

1答えて

多項式回帰を使用したモデルのフィッティングは、形状の問題のため予測できません

多項式回帰を使用するコードを以下に書きました。モデルには合うが、予測できない!! def polynomial_function(power=5, random_state=9): global X_train global y_train X_train = X_train[['item_1','item_2','item_3','item_4']] r

1熱

1答えて

メタデータ+値から簡単にxarray DataSetを作成できますか？

私は最近、疎な値の10k〜100kサンプル（cells）×20kの特徴（genes）であり、多くのメタデータを含む単一細胞RNAシーケンシングデータを扱っています。起源の組織（「脳」対「肝臓」）。メタデータは〜10〜100列で、私はpandas.DataFrameとして保存します。今、私はxarray.DataSetsを、メタデータをififingして座標として追加することで作成しています。私はノ

0熱

1答えて

既存のデータフレームに新しいカテゴリを作成するにはどうすればよいですか？

私は$ 100から$ 1000の支払いを含む支払いの合計列名を持つデータセットを持っていますが、$ 100.05、$ 102または104.05の支払いがあります。たとえば、$ 97以下の行を作成する場合は、100ドル未満または100〜200未満のカテゴリを持つ列を作成します。このようなコードを作成しました。が、出力はすべての行が800と900の間に言って、次のとおりです。この人々にサポートし

-1熱

1答えて

機械学習2進数のみの分類

私は50の予測変数と1つの目標変数を持っています。私のすべての予測変数とターゲット変数は、2進数の0と1だけです。私はRを使って分析を行っています。私は4つのアルゴリズムを実装します。 1. RF 2.ログインレッグ 3. SVM 4. LDA 私は、次の質問がある：私は要因にそれらのすべてを変換します。変数を事前に処理してから、他のアルゴリズムに渡す必要があります。モデルをトレーニングする

0熱

2答えて

意思決定ツリー作成時のデータ処理方法

私はKaggleから得たデータセットの意思決定ツリーを作ろうとしています。実際のデータセットを扱う経験はありませんので、データのクリーニング、統合、スケーリング（主にスケーリング）にどう対処するかはわかりません。たとえば、実数を持つフィーチャがあるとします。だから私は、（デシジョンツリーを作るための）グループの特定の数にスケーリングすることによって、そのような機能をカテゴリデータのようなものに

1熱

1答えて

「リスト」オブジェクトは、Pythonパンダで呼び出すことはできません

私は、このコードを実行すると、それはとしてエラーを生成名DFとコードは - df = pd.DataFrame({'string': list('abcdef'), 'int64': list(range(1,7)), 'uint8': np.arrange(3,9).astype(u1), 'bool1': [True,False,Fals

1熱

1答えて

PythonでのPGM P2イメージの読み方

まず、私はAIの大学グループのミッションに就いています。私はPGM P2（ASCII）形式で多くの顔を持つデータセットを持っています。 Neural Networkのプロセスを開始する前に、画像からピクセルの配列を抽出する必要がありますが、Pythonでこれらの画像を読み取る方法が見つかりませんでした。私はすでにPILを試しましたが、PGM P2では動作しません。私はこれをPythonで実行で

-2熱

2答えて

イメージから抽出できる関連情報はどれですか？

画像からすべての情報を引き出すことはできますか？を取ら -GPSデータ - タグ -time私はいくつかのデータ工学をやろうとしていると、ちょうどすべての情報は、私がイメージの外に引き出すことができるか疑問に思って？誰でもこれについてのアイデアはありますか？