large-data

    7

    1答えて

    私はdata.table(1.8.8、R 3.0.1)のfreadを使って非常に大きなファイルを読み込みます。 質問のファイルの数値データ行は313行~660万colsで、ファイルは約12GBです。これは512GBのRAMを搭載したCentos 6.4です。 私は、ファイルを読み込むしようとし: 私は最大で--max-ppsize 500000、が、同じエラーでRを起動しようとした g=fread

    5

    2答えて

    私は次のような助けが必要です。 PHPで大きなXMLファイル(4 GB)をストリーム解析したいと思います。単純なXMLやDOMを使うことはできません。なぜなら、ファイル全体をメモリに読み込むので、ファイルをストリームできるものが必要なのです。 PHPでこれを行うにはどうすればよいですか? 私がしようとしているのは、一連の<doc>要素をナビゲートすることです。また、いくつかの子を新しいxmlファイ

    1

    3答えて

    私は、タブで区切られた大量のテキストデータをDATE NAME MESSAGEという形で持っています。大きな意味では、1.76GBのコレクションが1075個の実際のファイルに分割されています。 NAMEのデータをからすべてのファイルに取得する必要があります。これまで私はこれを持っています: File f = new File(directory); File files[] = f.l

    1

    1答えて

    私はテキストファイルの2つのディレクトリを持っています。 1つはUser Descriptionで、もう1つはフィールドDATE<\t>NAME<\t>DESCRIPTIONとDATE<\t>NAME<\t>MESSAGEのUser Messagesです。私の主な目的は、これらの2つのファイル間のプロファイルとメッセージワードの間の相関行列を得ることです。 一例は次のようになります。ここでは

    8

    1答えて

    大量の配列を保存してリロードしようとしています。 numpy.saveとnumpy.loadを使用すると、配列の値が破損/変更されます。プリセービングとポストロードの配列の形状とデータ型は同じですが、ポストロード配列の値の大部分はゼロになっています。 配列は(22915,22915)、値はfloat64、.npyファイルとして3.94ギガバイト、データの平均値は.1(ゼロに変換される可能性のある小

    7

    2答えて

    全体に保存されている ソース、URLを訪問した検索:がトップ10最も訪問されたURLを見つけ、Googleの面接の質問 コンピュータの大規模なネットワークを考えると、訪問したURLの各保持ログファイルを。 多くの大きい<string (url) -> int (visits)> mapsがあります。 < string (url) -> int (sum of visits among all di

    2

    3答えて

    大量のデータを含むcsvファイルを作成するPHPスクリプトをテストしています。 これは私がこの仕事のやり方です:私は、文字列($のcsvdata)が10万データ行スクリプトの作業罰金のように含まれているという通知を持って $csvdata = "ID,FN,LN,ADDR,TEL,PRO\n 1,fn1,ln1,addr1,tel1,pro1\n...etc,"; $fname =

    6

    3答えて

    例えば、私は、50 +桁の長さの本当に大きな整数を節約する必要がある階乗プログラムを持っています。 C++の絶対最大プリミティブデータ型はで、最大値は18446744073709551615で、長さは20桁です。ここにC++の限界へのリンクがあります: 何よりも大きい数値を変数に格納するにはどうしたらいいですか?

    13

    3答えて

    私はSASから離れようとしているRの新しいユーザーです。私はRで利用可能なすべてのパッケージとソースに少し不満を感じているので、ここではこの質問をしています。データサイズのせいでこの問題が発生するようです。 私は、次のしている: 200個の予測機能と1つのクラス変数とローカルのMySQLデータベース内のソースと呼ばれるテーブル。テーブルには300万レコードあり、3GBの大容量です。クラスごとのイン

    7

    0答えて

    外部のユーティリティ(つまりbcp)を使用しないでを使わずにSQL 2008のテーブルにExcelテーブル(VBAアレイ)からのデータを入手する最も速い方法を知っていますか?? 私のデータセットは通常6500-15000行、約150-250列です。自動化されたVBAバッチスクリプトで約20〜150件のデータを転送してしまいます。 私は、以下のものを列挙されているSQL 2008にExcelのテーブ