私はPythonでDataFrameを持っており、データを前処理する必要があります。データを前処理するための最良の方法は何ですか?いくつかの変数には巨大なスケールがあり、他にはないことが分かっています。データにも大きな逸脱はありません。私はpreprocessing.Scale関数で試してみましたが、それは動作しますが、私は機械学習アルゴリズムを進めるのに最良の方法があるのかどうかはわかりません。データ前処理Python
0
A
答えて
0
データの前処理にはさまざまな手法がありますが、sklearn.preprocessingのアイデアを潜在的なガイドラインとして参照することができます。
http://scikit-learn.org/stable/modules/preprocessing.html
前処理は、あなたが勉強しているデータに結合され、一般的には、あなたが探検できている:欠損値を評価
- を、
- 列ごとにその割合を計算することによって分散を計算し、削除分散がゼロに近い変数
- 冗長性を検出するために変数間の相関を評価する
次のようにあなたがパンダに簡単にこれらのスコアを計算することができます
data_file = "your_input_data_file.csv"
data = pd.read_csv(data_file, delimiter="|")
variance = data.var()
variance = variance.to_frame("variance")
variance["feature_names"] = variance.index
variance.reset_index(inplace=True)
#reordering columns
variance = variance[["feature_names","variance"]]
logging.debug("exporting variance to csv file")
variance.to_csv(data_file+"_variance.csv", sep="|", index=False)
missing_values_percentage = data.isnull().sum()/data.shape[0]
missing_values_percentage = missing_values_percentage.to_frame("missing_values_percentage")
missing_values_percentage["feature_names"] = missing_values_percentage.index
missing_values_percentage.reset_index(inplace=True)
missing_values_percentage = missing_values_percentage[["feature_names","missing_values_percentage"]]
logging.debug("exporting missing values to csv file")
missing_values_percentage.to_csv(data_file+"_mssing_values.csv", sep="|", index=False)
correlation = data.corr()
correlation.to_csv(data_file+"_correlation.csv", sep="|")
上記は、それぞれ保持三つのファイル、分散、欠損値の割合と相関結果を生成するであろう。
thisのブログ記事を参照してください。
関連する問題
- 1. Pythonルートの前処理ルートパラメータ
- 2. 前処理
- 3. Pythonマルチスレッドメモ処理
- 4. 前処理辞書
- 5. RapidMinerタイムスタンプ前処理
- 6. Freemarker - テンプレート前処理
- 7. bwboundaries - 、MATLAB-、前処理
- 8. Python例外処理
- 9. Python SOAPドキュメント処理
- 10. Pythonのエラー処理
- 11. Python例外処理
- 12. Androidデータの処理
- 13. より良い前処理ライブラリまたはPythonでの実装?
- 14. Python mrjob mapreduce入力ファイルを前処理する方法
- 15. 名前付きエンティティのPython自然言語処理
- 16. Androidでの前処理
- 17. Javaの前処理フェーズ
- 18. MySQLデータベースの前処理テーブル
- 19. 前処理データ:回帰におけるデータラベルの正規化?
- 20. Drupalモジュールのコールバック、前処理、テンプレート間でデータを渡す
- 21. SSAS Cubeに処理する前にデータを編集する
- 22. OpenCV 2.4 in python - ビデオ処理
- 23. スクリーンショットの画像処理 - Python
- 24. Pythonフォーム処理の問題
- 25. ファイルの処理はPython
- 26. 支払い処理 - pylons/python
- 27. Django/Pythonでのリアルタイムデータ処理
- 28. Python MQTT例外処理
- 29. Pythonのxml処理オプション
- 30. Pythonで処理するスレッド
あなたの質問は非常に一般的なもので、正確に何を探しているのですか?私はあなたに一般的な前処理についていくつかのヒントを与えましたが、あなたが探しているものはわかりません。 – MedAli