2017-11-27 3 views
1

私のデータを以下に示す形式のテキストファイルであります何とか何とか何とか何とか何とか何とかテキストファイルの生データをpandasデータフレームに読み込む方法は?</p> <p>見出し1::何とか</p> <p>見出し2:何とか</p> <p>見出し3:何とか何とか何とか何とか何とか何とか何とか何とか何とか何とか何とか何とか何とか何とか何とか

見出し1:何とか

見出し2:何とか

heading3:blah blah blah blah blah blah blah blah blah blah

+0

見出し3のデータは次の行に渡すことができます – harry

+0

"blah"の文字列が文字通りテキストファイルにロードされていない限り、入力データの外観をよりよく把握する必要があります。例えば値を文字列 'split'メソッドを使ってリストに変換できますか? –

+0

こんにちは、データはzipファイルの[ここ](https://snap.stanford.edu/data/wiki-RfA.html)です。 – harry

答えて

1

ありがとうございました。公開されている場合は、最初に行うと便利です。私は完全なデータセットでこれを実行しました。それはまともなラップトップで数秒かかりました。このポストから

import numpy as np 
import pandas as pd 

with open('rfa_all.NL-SEPARATED.txt', 'r') as f: 
    data = f.readlines() 

# create a dictionary with keys and lists. 
# if you don't set the values as lists, you get an error. 
d = {'SRC': [], 'TGT': [], 'VOT': [], 'RES': [], 'YEA': [], 'DAT': [], 'TXT': []} 

for line in data: # go through file line by line 
    if line != '\n': # skip new line characters 
     line = line.replace('\n', '') # get rid of '\n' in all fields 
     key, val = line.split(':', 1) # take the first 2 tokens from the split statement 
     d[key].append(val) 

df = pd.DataFrame(d) 
df 

豊富なヘルプ:https://stackoverflow.com/a/26644245/6672746

私はこれを設定するにははるかに高速な方法があります確信しているが、私はこれが動作すると思います。

+0

それは働いていません。データ[ここ](https://snap.stanford.edu/data/wiki-RfA.html)を見てください – harry

+0

実際のファイルの書式はあなたの例とは十分に異なりますが、 split( ':')ステートメントが破られます。後でもう一度見てみよう。 – Evan

関連する問題