data-processing

1熱

1答えて

私は以下のようにデータフレームxを持っています。私はデータフレームyに変換したい。 x <- data.frame(x=c("100A", "200B", "300C")) y <- data.frame(x=c(100, 200, 300))

0熱

1答えて

wekaのベースライン分類器

私はwekaの私のデータセットについて分析を行っています。私は、このプロセスを実行するための3種類の学習スキーム、PART、JRip、J48を使いたいと思っています。もう1つの必要なステップは、ベースライン分類子としてZeroRを使用することです。私はこれをWekaのベースラインクラスとして宣言できますか？

2熱

1答えて

複数の列を行列のpythonにマージする

私は最終的にマージしようとしているいくつかのpythonの列を持っています。今はzip関数を使用していますが、カラムをマージしてCSV形式で出力すると、フォーマットがひどいです（カラムを別々にするのではなく、新しいものを追加するときにzipがカラムを結合します）。次に例を示します。 col1 = [text1, text2, text3, etc] col2 = [str1, str2, str

0熱

1答えて

Pythonを使用してcsvファイルの最初と最後の列を上書きする

CSVモジュールを使用してデータ処理を行うのが初めてです。そして、私は、入力ファイルを持っているし、このcode` import csv path1 = "C:\\Users\\apple\\Downloads\\Challenge\\raw\\charity.a.data" csv_file_path = "C:\\Users\\apple\\Downloads\\Challenge\\

1熱

1答えて

three.js jsonファイルからポイントを削除する

私はblenderとBufferGeometryからエクスポートしたthree.js jsonモデルファイルにテクスチャファイルを加えました。オブジェクトにノイズがあり、jsonファイル自体をエクスポート後に処理してクリーンアップしようとしています（いくつかの頂点を削除する必要がありますが、これはスムージングやデシメーションの操作ではありませんこの仕事の他の場所よりもjsonデータ）。したがっ

2熱

1答えて

機械学習データ前処理

機械学習のためのデータ前処理に関する質問があります。特に平均と単位分散がゼロになるようにデータを変換します。私は2つのデータセットにデータを分割しました（私は3つが必要であることを知っていますが、簡単にするために私は2つを持っているとしましょう）。トレーニングデータセット全体に単位分散と平均があり、モデルをテストするときに各テスト入力ベクトルを変換して、それぞれのテスト入力ベクトルが単位分散とゼ

-2熱

2答えて

データ処理のためにR/Pythonで複数のヘッダを持つ.xlsファイルを読むには？

あなたは私が適切な形式でそれを得ることができるように、私はR/Pythonでこのファイルを読むことができるか、それは多くのヘッダの層から成って見ることができるように、私は以下に指定され、このファイル、を持っていますそれを処理するために？

4熱

1答えて

pyspark（2.1.0）LdAを使用して各文書に関連するトピックを取得するには？

私は、ppparkのLDAModelを使用して、コーパスからトピックを取得しています。私の目標はのというトピックを各文書に関連付けることです。その目的のために、ドキュメントごとにtopicDistributionColを設定しようとしました。私はこれに新しいので、私はこのコラムの目的が何であるか分かりません。 from pyspark.ml.clustering import LDA lda_m

0熱

1答えて

データ処理の小さな不一致に対処するためにどのようなプログラミングパターンや戦略を使用すべきですか？

ルビーの宝石で私は入力として特定の既知のクエリパラメータを受け取り、それらをクエリ文字列にマッサージし、そのデータを取得するための残りのエンドポイントとしてその構築された（URL）文字列を使用する必要があります。入力が奇妙なものになりました。コードを入力して一貫した出力に正規化するようにしています。 def build_query(params, endpoint) limit =

1熱

1答えて

機械学習の多次元空間から多様なデータセットのサブサンプルを選択する方法は？

できるだけ多様なトレーニングセットを作成しながら、（データセット内のデータポイントの類似性に応じて）データをより小さなサイズに圧縮することを考えていました。これは、データの比較的重要でない部分にあふれないようにするためです。説明は次のとおりです。問題の説明は次のとおりです。私はカーレースデータを訓練していますが、道路のかなりの部分は比較的まっすぐです。データのこの部分には比較的小さなばらつきがあ