私は次のコードを使用して新しいCSVファイルにファイルをCSVのランダムなサブセットをエクスポートしようとしています:新しいCSVファイルへのCSVファイルからランダムにサンプルをエクスポートする - 出力が乱雑である
with open("DepressionEffexor.csv", "r") as effexor:
lines = [line for line in effexor]
random_choice = random.sample(lines, 229)
with open("effexorSample.csv", "w") as sample:
sample.write("\n".join(random_choice))
をしかし、問題は、出力CSVファイルが非常に乱雑であるということです。たとえば、あるフィールドのデータの一部が次の行に印刷されました。どうすれば問題を解決できますか?さらに、私はCSVではなくこの問題に対してどのようにパンダを使うことができるかを知りたい。ありがとう!
df = pandas.read_csv("csvfile.csv")
sample = df.sample(n)
sample.to_csv("sample.csv")
をあなたはそれをさらに短くすることができます:
df.sample(n).to_csv("csvfile.csv")
dataframe.sample
がするようPandas IO docsは、利用可能大いにより多くの情報とオプションを持っているあなたはCSVがパンダに読んでいたと仮定すると、
あなたは['sample'](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sample.html#pandas.DataFrame.sample)を見ましたか? – EdChum
どうしたらいいのですか?shuf -n 229 DepressionEffexor.csv> effexorSample.csv' –
@Loïc:OPのコードのように、ヘッダーを処理していない場合、要素内にLFがある場合は処理しません。 OPの説明はそれがあるように見えるようにする。 – DSM