large-data

    1

    1答えて

    Pythonで大きなバイナリデータファイルからランダムなチャンクを読み込みたいと思っています。 これまでの説明は次のとおりですが、最初のnの整数でしか読み取ることができず、ファイル内のどこかで開始できません。また import numpy as np #Pick an n here. f = open("test2.rd14") a = np.fromfile(f, dtype = np.

    1

    1答えて

    私は2つのテキストファイルを持っています。 A.TXTでは、このような行(一方万行)がある。 991000000019999998,b10000021, 991000000019703408,b10000021, 991000545455435408,b10000045, 991000000029703408,b10000045, ... 最初の部分は、バーコード(9910000000

    0

    2答えて

    私はRの1500万回の観測データの大規模なデータセットを扱っています。ロジスティック回帰を実行して、バイナリ従属変数( "HasShared" )。 共有のイベントは非常にまれです(1%未満)ので、まれなイベントの問題を処理するためにlogistf回帰を試しました。データセットには48の変数があり、そのうち6つだけが回帰に参加する必要があります。私はGoogleのクラウドプラットフォーム上の仮想マ

    -1

    1答えて

    私は200万行7列のデータを持っています。何千もの異なる企業と指標があります。 company_id indicator_id X2011 1 1000045 AccountsPayableAndAccruedLiabilitiesCurrentAndNoncurrent 6612429 2 1000045 AccumulatedDepreciation

    0

    2答えて

    私はDjangoのモデルに変換した大きなデータテーブル(〜30 Mb)を持っています。今、私はそのデータにREST APIを通してアクセスしたいと思っています。 私は正常にDjango RESTフレームワークをインストールしましたが、モデルの各フィールドのURLを自動的に作成する方法を探しています。私のモデルには約100のフィールドがあり、各フィールドには約100,000のエントリがあります。 私

    -1

    1答えて

    私のシミュレーションデータから得た私のtime seriesはプロットするには大きすぎます(350Mb)(dygraphとしたい)。私のデータセットを小さくする方法はありますか?多くの情報を失うことはありませんか?

    0

    2答えて

    pandas.dataframe.duplicatedは、データフレーム内の指定された列全体で重複する行を検索するのに最適です。 しかし、私のデータセットは、メモリに収まるものよりも大きく(妥当な予算の範囲内で拡張した後に収まるものよりもさらに大きい)。 これは、データセット(csvとdbfファイル)をループして、各ファイルをそれ自身のメモリにロードしてすべてを順番に実行できるので、実行する必要の

    1

    1答えて

    私はconvNetのtr-60%、test-20%、validate-20%の50k画像データセットを消費しようとしています。 次のようにこれまでのところ、私は、)(プレースホルダを作成し、sess.run @それをfeed_dictingている: - tf_train_dataset = tf.placeholder( tf.float32, shape=(batch_size, ima

    0

    1答えて

    py2neo(v 3.1.2)と一緒にpython 3を使用して、MySQLからNeo4jに大量のデータを挿入しています。 MySQLのテーブルには約2,000万行があります。 neo4jのウェブサイトで提案されているように、MySQLデータをCSVに変換せずに挿入を行いたいと思います。 私のコードは次のようになります。 transaction=graph_db.begin() sql="SEL

    0

    1答えて

    This question and answers to it STXXLは固定データ長のみを処理することを再確認します。動的データサイズ(コンパイル時に不明なデータサイズ)を処理するSTXXLに代わるものはありますか? STXXLを使用して動的データサイズを処理する方法はありますか?上記のリンクは、さまざまな長さの構造を定義し、実行時に最も近いものを選んだものです。データサイズを検出したり、ユー