私はlooks like thisというテキストファイルを持っています。私は,
(既に存在し、行終端文字の場合は\r\n
)で標準形式に変換しようとしています。問題は、現在のファイルは固定幅+カンマ区切りのようなものです。現在のファイルの行は、各行に行終端文字を含む複数の行を構成します。この形式は、ほとんどのローディング/外部表ツールではサポートされていません。 。巨大なファイルから空白行を削除し、sedを使用して区切りファイルを作成
削除するには私がこれまでにsedを試してみました -
zcat myfile.txt.gz | sed 's/^\ *$/%%%/g' | xargs | sed -e 's/%%%/\n/g' -e 's/\ //g' > myfile.txt
上記のファイルが変換され、すべてが正常に見えた。しかし、行の一部が正しく変換されていないことに気付きました。例、いくつかの行には私はちょうど117の列があります。
sedには何がありますか?これを行うためのより良い/より速い方法がありますか?私が扱っているファイルは、圧縮されていないそれぞれ約25GBであり、それらのファイルは100以上あります。
Desired Output(サンプル入力の最初の2行)
あなたの予想出力は何をそのファイルから? – Inian
サンプル入力とそのサンプル入力用の希望の出力を質問に追加してください**。 – Cyrus
サンプル入力と希望する出力で質問を更新しました。 –