2017-11-15 7 views
0

タブ区切り形式のファイルがあります。ファイル形式はFILEとして表示されます。最初の3つの列が3グラム文残ります特定の行をPythonでタブ区切りファイルに解析する

Job Wanted_VERB "_. 2000 1 1 
Job Wanted_VERB "_. 2001 1 1 
Job Wanted_VERB "_. 2002 5 5 
Job Wanted_VERB "_. 2004 2 2 
Job Wanted_VERB "_. 2005 2 2 
Job Wanted_VERB "_. 2006 2 2 
Job Wanted_VERB "_. 2007 1 1 
Job Well Done 1917 1 1 
Job Well Done 1930 3 2 
Job Well Done 1937 1 1 
Job Well Done 1940 5 4 
Job Well Done 1941 3 3 
Job Well Done 1942 1 1 
Job Well Done 1943 2 2 
Job Well Done 1944 1 1 
Job Well Done 1945 1 1 
Job Well Done 1946 3 3 
Job Well Done 1948 1 1 
Job Well Done 1949 4 4 
Job Well Done 1950 1 1 
Job Well Done 1951 3 2 
Job Well Done 1952 6 4 
Job Well Done 1953 9 5 
Job Well Done 1954 6 4 
Job Well Done 1955 5 5 
.... 
.... 

は、単語の出現頻度に関係している:私は、テキストエディタで開くと、それは次のようになります。

これは巨大なファイルなので、私が探している3グラムの単語しか含まれていない部分を解析したいだけです。たとえば、上の表から、Job Well Done部分のみを解析したいと思います。

Job Well Done 1917 1 1 
Job Well Done 1930 3 2 
Job Well Done 1937 1 1 
Job Well Done 1940 5 4 
Job Well Done 1941 3 3 
Job Well Done 1942 1 1 
Job Well Done 1943 2 2 
Job Well Done 1944 1 1 
Job Well Done 1945 1 1 
Job Well Done 1946 3 3 
Job Well Done 1948 1 1 
Job Well Done 1949 4 4 
Job Well Done 1950 1 1 
Job Well Done 1951 3 2 
Job Well Done 1952 6 4 
Job Well Done 1953 9 5 
Job Well Done 1954 6 4 
Job Well Done 1955 5 5 

私は現在、全体のファイルを解析し、リストにそれを置くためにこれをやっている:

with open(file, 'rt', encoding='UTF8') as input: 
    z = [line.strip().split('\t') for line in input] 

任意のヘルプ?

答えて

0

文の場合は、[はい、としてSTARTSWITHを追加するには、次のように:ValueErrorを::閉じられたファイルのI/O操作

with open(file, 'rt', encoding='UTF8') as input: 
    z = [line.strip().split("\t") for line in f if line.startswith("Job Well Done")] 
+0

それは私にエラーを与えます。 – Dawn17

+0

@ Dawn17あなたはあなたがすでにファイルを読んでいるところだと思った。 –

+0

私はそれを読んでいる間にファイルを解析したかった – Dawn17

関連する問題