data-processing

    1

    1答えて

    私は以下のようにいくつかの日付で遊んでいます。 song_id action_type ds 0 effb071415be51f11e845884e67c0f8c 1 14 days 1 f87ff481d85d2f95335ab602f38a7655 1 13 days 2 8a27d9a6c59628c991c154e8d93f412e 2 12 days 3 ecea5fe

    8

    3答えて

    IQR(つまり、Q1-1.5IQRとQ3 + 1.5IQRの間の値)で列のフィルタリングを行う方法はありますか? また、パンダの他の可能性のある一般化されたフィルタリングが示唆されています。

    0

    1答えて

    私はこの解決しようとしている - https://www.e-olymp.com/en/problems/7549を私は(唯一の1/4を通過した)すべてのテストに合格することはできません。私は、これらの入力で自分のコードをテストしていた。 (AlC2)3Na4 3Al+6C+4Na Gh(G2H3(H1A45)2)5(Bn6Mn3)5 450A+30Bn+10G+Gh+25H+15Mn

    0

    1答えて

    値P、G、Aと、データフレームです: P G A C2 28 R0 C2 35 R1 C2 30 R0 C2 33 R0 C2 30 R0 C7 31 R1 C7 25 R1 C7 23 R1 C7 28 R0 C7 22 R0 C8 22 R1 C8 23 R1 C8 25 R0 C8 30 R1 C8 33 R0 C8 27 R0 は、各P内の各Aのための

    2

    2答えて

    大量の汚れたデータがある大規模なCSVファイルがあります。絶対に必要ではない値。 Here私が話しているファイルです。 それは構成要素を有する: Website、Title、Start Date、Employer、Location、lat、lon、Country、Skills11、Jobs が、私はすべてが、消し去るしたいと思います: Employer、Location、Country、Jobs

    1

    2答えて

    私は〜250k行のテキストファイルを持っています。各行には、複数のスペースで区切られたデータが含まれています。私は、行ごとにデータを解析し、各行から特定のコンポーネントを取り出したいと思っています。 入力ファイルと出力ファイルを開き、入力ファイルを1行ずつ解析し、適切なトークンに分割し、新しい行を目的の形式で再構築し、すぐに出力ファイルに出力するプログラムを作成しました。 問題は、実行すると、70

    2

    1答えて

    私はスレッド型メッセージングサービスを組み立てています。私は自分の頭を特定のクエリにラップさせようとしています。私は現在、user_idの配列が提供されたときにthread_idを返すプロシージャを作成しようとしています。 テーブルには2つの列があります:thread_id & user_id。 Iは、テスト用のテーブルにおける4行を有する: INSERT INTO thread_users (`

    1

    2答えて

    私は著者の名前をユニークにしようとしています。私がしようとした場合でも、 create table author(author_id int auto_increment primary key, firstname varchar(20), middlename varchar(20), lastname varchar(20)) auto_increment = 1001; alter ta

    1

    2答えて

    私は.txtのこのタイプの多くのファイルを持っている: name1.fits 0 0 4088.9 0. 1. 0. -0.909983 0.01386 0.91 0.01386 -0.286976 0.00379 2.979 0.03971 0. 0. name2.fits 0 0 4088.9 0. 1. 0. -0.84702 0..847 0.-0.250671 0.00261 3.17

    5

    5答えて

    私はかなり良いRDBMS経験を持つPython開発者です。かなり大量のデータ(約500GB)を処理する必要があります。データはs3バケットで約1200のcsvファイルに格納されています。私はPythonでスクリプトを書いており、それをサーバー上で実行できます。しかし、それはあまりにも遅いです。現在の速度とデータ量に基づいて、すべてのファイルを処理するのに約50日かかります(そして、その前に締め切り