私の入力csvファイルには約200〜3億のレコードがあります。私の要件は受信データをソートしてルックアップのキー値を取得してターゲットテーブルに挿入することです。 1つの提案は、複数の一時ファイルにデータをソートして保存するJavaプラグインを作成してそこから取得することでした。私はpentahoでソート・ステップを使用し、コピー数を設定することを考えていました。しかし、私は最良のアプローチが何であるか分かりません。誰もこれについてどうやって行くのかを提案することはできますか?ありがとう。Pentahoで2億〜3億のレコードをソートする最良の方法は?
1
A
答えて
2
私はこの多くの行をソートするためにPDIを使用しています。 Sort
の手順はうまくいきます、それは厄介なことがあります。私は "Free memory threshold(%in)"を〜50に設定しました。この手順では、「ソートディレクトリ」に一時ファイルのゴブが生成されます。ジョブがクラッシュした場合(通常はメモリが不足しているため)、手動で一時ファイルを削除する必要があります。
もし私がもう一度やり直さなければならなかったら、おそらく "TMPファイルを圧縮する"を設定するでしょう。複数の失敗が私をディスク領域から駆逐したためです。がんばろう!
Javaでカスタムソートを行うとパフォーマンスが向上する可能性がありますが、開発時間が大幅に短縮されます。あなたが毎日/毎週このような多くの行を並べ替えるなら、それはおそらくそれの価値があるでしょう。そうでない場合は、PDIのSort
を貼ってください。
関連する問題
- 1. 10億レコードのMongoDBコレクションを最適化して維持する方法は?
- 2. 何十億ものレコードを含むMySQLデータベースを検索する最速の方法は何ですか?
- 3. データ集約と平均2,000億レコード
- 4. mongodbの1億レコードに新しいフィールドを追加する
- 5. 関連する2つのテーブルから30億行を削除する方法
- 6. 42億レコードをロードした後にSQL * Loaderがスタックする
- 7. データベース設計 - 数十億レコードのシステムに従います
- 8. SQL - 大規模なテーブルの更新クエリのパフォーマンス(9億)レコード
- 9. PostgreSQLで10億のVINを生成するのに最適な(最速の)方法
- 10. 多くの行(3億+)のテーブルでcount(*)を使用するクエリのパフォーマンス
- 11. ソーシャルグラフ分析。 60GB、1億ノード
- 12. mongoを使用してsinatraのhandsontableで数十億のレコードを簡単に読み込む方法は?
- 13. 10億のオブジェクトのdynamodbでdistictカウントを取得するには?
- 14. MySQLあたりの最大行数(億)NDBCLUSTER?
- 15. SQLの最初のレコード以外のレコードをソートする方法
- 16. データベース設計 - 数十億のレコードが1つのテーブルにありますか?
- 17. 数十億行の定義済みキーワードを検出する最も効率的な方法/ライブラリですか?
- 18. 何億もの行を持つ表の問合せを最適化する
- 19. アップルの10億カウントダウンを抽出するには?
- 20. vshar(40)と2.3億行の赤方偏移結合
- 21. Sparkから何十億もの行を出力する
- 22. 数十億の整数を格納するデータ構造
- 23. pythonで1億のサイズの4つのリストを作成するには?
- 24. エンドユーザがRailsでソート順を指定する最良の方法
- 25. 10億人の学生のリストを並べ替える
- 26. ASP.NETでレコードをカスタム編集する最も良い方法は?
- 27. C++で1億ノードの大グラフの表現
- 28. テキストファイルから十億行をOracleに高速にロードする
- 29. 1億件の文書が多すぎますか?
- 30. アイソトープはデータのリストをフィルタリングしてソートする最良の方法ですか?
私は行生成器のステップを使用するときにうまく動作しますが、cvs入力を使用するとフリーズまたはクラッシュするpentahoソートステップを使用したテストはほとんど試行しませんでした。理由は分かりません。 – DUnkn0wn1
おそらくあなたのデータセットのサイズのためです。 「レイジー変換」がオフになっていることを確認してください。空きメモリのしきい値の設定を調整してみてください。 –
ありがとうございます。それが助けになりました。バッファーサイズを小さくすることも役に立ちます。 – DUnkn0wn1