data-processing

1熱

1答えて

私は以下のようにいくつかの日付で遊んでいます。 song_id action_type ds 0 effb071415be51f11e845884e67c0f8c 1 14 days 1 f87ff481d85d2f95335ab602f38a7655 1 13 days 2 8a27d9a6c59628c991c154e8d93f412e 2 12 days 3 ecea5fe

8熱

3答えて

パンダのIQRフィルターの使い方は？

IQR（つまり、Q1-1.5IQRとQ3 + 1.5IQRの間の値）で列のフィルタリングを行う方法はありますか？また、パンダの他の可能性のある一般化されたフィルタリングが示唆されています。

0熱

1答えて

別の原子は、プログラム

私はこの解決しようとしている - https://www.e-olymp.com/en/problems/7549を私は（唯一の1/4を通過した）すべてのテストに合格することはできません。私は、これらの入力で自分のコードをテストしていた。 (AlC2)3Na4 3Al+6C+4Na Gh(G2H3(H1A45)2)5(Bn6Mn3)5 450A+30Bn+10G+Gh+25H+15Mn

0熱

1答えて

はここ

値P、G、Aと、データフレームです： P G A C2 28 R0 C2 35 R1 C2 30 R0 C2 33 R0 C2 30 R0 C7 31 R1 C7 25 R1 C7 23 R1 C7 28 R0 C7 22 R0 C8 22 R1 C8 23 R1 C8 25 R0 C8 30 R1 C8 33 R0 C8 27 R0 は、各P内の各Aのための

2熱

2答えて

csvファイルから望ましくない値を削除するための高速で正確で信頼性の高い方法

大量の汚れたデータがある大規模なCSVファイルがあります。絶対に必要ではない値。 Here私が話しているファイルです。それは構成要素を有する： Website、Title、Start Date、Employer、Location、lat、lon、Country、Skills11、Jobs が、私はすべてが、消し去るしたいと思います： Employer、Location、Country、Jobs

1熱

2答えて

C++で大きいテキストファイルを解析する

私は〜250k行のテキストファイルを持っています。各行には、複数のスペースで区切られたデータが含まれています。私は、行ごとにデータを解析し、各行から特定のコンポーネントを取り出したいと思っています。入力ファイルと出力ファイルを開き、入力ファイルを1行ずつ解析し、適切なトークンに分割し、新しい行を目的の形式で再構築し、すぐに出力ファイルに出力するプログラムを作成しました。問題は、実行すると、70

2熱

1答えて

MYSQL複数のユーザーIDでメッセージスレッドIDを選択してください

私はスレッド型メッセージングサービスを組み立てています。私は自分の頭を特定のクエリにラップさせようとしています。私は現在、user_idの配列が提供されたときにthread_idを返すプロシージャを作成しようとしています。テーブルには2つの列があります：thread_id & user_id。 Iは、テスト用のテーブルにおける4行を有する： INSERT INTO thread_users (`

1熱

2答えて

複数のカラムが一意でないMySQL固有のキー

私は著者の名前をユニークにしようとしています。私がしようとした場合でも、 create table author(author_id int auto_increment primary key, firstname varchar(20), middlename varchar(20), lastname varchar(20)) auto_increment = 1001; alter ta

1熱

2答えて

操作

私は.txtのこのタイプの多くのファイルを持っている： name1.fits 0 0 4088.9 0. 1. 0. -0.909983 0.01386 0.91 0.01386 -0.286976 0.00379 2.979 0.03971 0. 0. name2.fits 0 0 4088.9 0. 1. 0. -0.84702 0..847 0.-0.250671 0.00261 3.17

5熱

5答えて

大量のデータを並列に処理する

私はかなり良いRDBMS経験を持つPython開発者です。かなり大量のデータ（約500GB）を処理する必要があります。データはs3バケットで約1200のcsvファイルに格納されています。私はPythonでスクリプトを書いており、それをサーバー上で実行できます。しかし、それはあまりにも遅いです。現在の速度とデータ量に基づいて、すべてのファイルを処理するのに約50日かかります（そして、その前に締め切り