に壊れた引用符とコロンで区切られた値を解析、私はこのようになりますコロンで区切られたファイルcik.coleft.c
を、持っている:bashの
!J INC:0001438823:
#1 A LIFESAFER HOLDINGS, INC.:0001509607:
#1 ARIZONA DISCOUNT PROPERTIES LLC:0001457512:
#1 PAINTBALL CORP:0001433777:
$ LLC:0001427189:
& S MEDIA GROUP LLC:0001447162:
&TV COMMUNICATIONS INC.:0001479357:
'MKTG, INC.':0000886475:
11:11 CAPITAL CORP.:0001463262:
それは分離カンマはコロンに置き換えた2列csv
です。一方、一重引用符は、コロン(セパレータ)を使用した値ではなく、カンマで値をエスケープします。
ただし、最初の列にはコロンが含まれています。このコロンはパーサーを中断します。私は...通常csv
に
curl -o cik.coleft.c 'https://www.sec.gov/edgar/NYU/cik.coleft.c'
in2csv --format 'csv' -d ':' -q "'" -e 'latin1' cik.coleft.c > cik.coleft.csv
をcik.coleft.c
を変換しようとするので...私は4と複数の列を取得します。
私はsed
にラインを読んでみましたが、成功していません。
これを適切な2列テーブルに変換するにはどうすればよいですか?
「11:11」などと競合しない別の区切り文字を選択できますか? –
したがって、間違った唯一のコロンは最後の行の '11:11'ですか? – Kaz
ファイルを作成したユーザーは、各フィールドの引用要件を再分析せずに区切り記号を置き換えることで、フォーマットを破棄しました。 "X"で区切られた値ファイルの区切り文字を無意味に変更すると情報が破壊され、この種の曖昧さが生じます。 (これはあなたを助けません、私は知っていますが、将来のための教訓です。誰かがファイルを壊した場合、あなたは合法的に不平を言うことができます。) – rici