ありがとうございました。公開されている場合は、最初に行うと便利です。私は完全なデータセットでこれを実行しました。それはまともなラップトップで数秒かかりました。このポストから
import numpy as np
import pandas as pd
with open('rfa_all.NL-SEPARATED.txt', 'r') as f:
data = f.readlines()
# create a dictionary with keys and lists.
# if you don't set the values as lists, you get an error.
d = {'SRC': [], 'TGT': [], 'VOT': [], 'RES': [], 'YEA': [], 'DAT': [], 'TXT': []}
for line in data: # go through file line by line
if line != '\n': # skip new line characters
line = line.replace('\n', '') # get rid of '\n' in all fields
key, val = line.split(':', 1) # take the first 2 tokens from the split statement
d[key].append(val)
df = pd.DataFrame(d)
df
豊富なヘルプ:https://stackoverflow.com/a/26644245/6672746
私はこれを設定するにははるかに高速な方法があります確信しているが、私はこれが動作すると思います。
見出し3のデータは次の行に渡すことができます – harry
"blah"の文字列が文字通りテキストファイルにロードされていない限り、入力データの外観をよりよく把握する必要があります。例えば値を文字列 'split'メソッドを使ってリストに変換できますか? –
こんにちは、データはzipファイルの[ここ](https://snap.stanford.edu/data/wiki-RfA.html)です。 – harry