〜0.5 GBのテキストファイルを使用しています。私は代表的な行の部分集合を抽出したいと思います。言って、百万分の一。私はこれを行うには小さなスクリプトを作成しました:大きなテキストファイルから行を無作為にサンプルする方法 - コマンドラインから
import random
result = []
with open("data.txt") as f:
for line in f:
if random.random() < 0.000001:
result.append(line)
をしかし、私はスクリプトなしで、コマンドラインからこれを行うことができれば、それは私の目的のために、より有用であろう。注意しておきますが、どれだけの出力を出力するかは気にしません。各出力の割合/確率を設定したいだけです。
ご質問/ご要望:コマンドラインに適した短い1本のライナーでこれを行う方法です。
Simpe 'awk'ベースのソリューション... http://stackoverflow.com/a/22303906/2836621 –
:これを試してみてください。さらに短く! – user6138212