私は217GBのCsvファイルを持っていますが、タイムアウトなしでPythonまたはPHPスクリプトを使用して一意の列値の数を取得するにはどうすればよいですか?PythonまたはPHPを使用した大規模なCSVファイルからの一意の列値の数
0
A
答えて
1
このような大きなファイルの場合、タイムアウトとは何を意味するのかよく分かりませんが、それには常に時間がかかります。
tokens = {}
with open("your.csv") as infile:
for line in infile:
columns = line.split(',')
# Where idx is your desired column index
if columns[idx] not in tokens:
tokens[columns[idx]] = 0
else:
tokens[columns[idx]] += 1
print tokens
これはファイルを1行ずつ読み込むため、217 GB全体をRAMにロードしても計算がクラッシュしません。最初にこれを試して、辞書がコンピュータのメモリに収まるかどうかを調べることができます。さもなければ、分割と征服のアプローチでファイルをより小さなチャンクに分割することを検討したいかもしれません。
-1
あなたは(サイズの性質によって)長い時間がかかるだろう、この巨大なファイルを処理し、@plsnoban述べたようfield_size_limit
import csv
csv.field_size_limit(1000000000)
r = csv.reader(open('doc.csv', 'rb'))
for row in r:
print(row) # do the processing
関連する問題
- 1. PHP MYSQLを使用した大規模なCSVファイルの処理
- 2. 大規模なCSVをMySQL57にインポートする際の問題 - 一部の列内の不正確な整数値
- 3. 大規模なCSVファイル(numpy)でPythonがメモリ不足
- 4. NaN値またはマスクを使用した大規模配列の2変数式構造補間
- 5. 大規模なCSVファイルをウェブサイトの入力として使用する
- 6. Elasticsearchを使用したMongoDBの大規模なコレクションの索引
- 7. は、大規模な配列を作りたい大numpyのアレイ
- 8. 大規模な使用; EFを使用したWPFアプリケーション
- 9. NodeJS、大規模なCSVファイルの処理を約束する
- 10. 大規模なPHP配列ページ設定
- 11. 大規模なシミュレーション、フロントエンドまたはバックエンド?
- 12. 大規模なPythonランダムシェアラー
- 13. 大規模な行列計算のためにOpenCLのローカルワーカーを使用する
- 14. 大規模なユーザーベースのためのベストコードレビューツール?
- 15. PHP - 大規模なPOSTリクエストサーバエラー
- 16. 遅すぎる大規模なリストに一意の要素を数える
- 17. 2列の値のみを必要とする大規模なCSVファイルの解析(Java)
- 18. Entity Frameworkを使用したcsvファイルからの一括挿入
- 19. 大規模な複雑さのためにPython 2.7のメモリエラー
- 20. WCFを使用した大規模なデータ転送
- 21. Business Connectivity Servicesを使用した大規模なデータセット
- 22. SpringBoot:Apache Commonsを使用した大規模なストリーミングファイルアップロードFileUpload
- 23. Javaを使用した大規模なXML生成と報告
- 24. 大規模なmod_wsgiアプリケーションを使用したApacheサーバーインスタンスの最大化
- 25. ASP.NET MVCプロジェクトで大規模なCSVファイルをダウンロード
- 26. 大規模な.csvファイルを、適切なヘッダフィールドを持つ小さな.csvファイルに分割します。
- 27. PHPを使用して生成されたCSVファイルの最大行数
- 28. RESTful WebサービスJSONを使用した大規模データのアップロード/ダウンロード
- 29. 大規模データベースでのクエリを使用したActiveDirectoryパフォーマンス
- 30. RIAサービスを使用した大規模データセットの取得
を高めるために試みることができます – salomonderossi