0
タブ区切り形式のファイルがあります。ファイル形式はFILEとして表示されます。最初の3つの列が3グラム文残ります特定の行をPythonでタブ区切りファイルに解析する
Job Wanted_VERB "_. 2000 1 1
Job Wanted_VERB "_. 2001 1 1
Job Wanted_VERB "_. 2002 5 5
Job Wanted_VERB "_. 2004 2 2
Job Wanted_VERB "_. 2005 2 2
Job Wanted_VERB "_. 2006 2 2
Job Wanted_VERB "_. 2007 1 1
Job Well Done 1917 1 1
Job Well Done 1930 3 2
Job Well Done 1937 1 1
Job Well Done 1940 5 4
Job Well Done 1941 3 3
Job Well Done 1942 1 1
Job Well Done 1943 2 2
Job Well Done 1944 1 1
Job Well Done 1945 1 1
Job Well Done 1946 3 3
Job Well Done 1948 1 1
Job Well Done 1949 4 4
Job Well Done 1950 1 1
Job Well Done 1951 3 2
Job Well Done 1952 6 4
Job Well Done 1953 9 5
Job Well Done 1954 6 4
Job Well Done 1955 5 5
....
....
は、単語の出現頻度に関係している:私は、テキストエディタで開くと、それは次のようになります。
これは巨大なファイルなので、私が探している3グラムの単語しか含まれていない部分を解析したいだけです。たとえば、上の表から、Job Well Done
部分のみを解析したいと思います。
Job Well Done 1917 1 1
Job Well Done 1930 3 2
Job Well Done 1937 1 1
Job Well Done 1940 5 4
Job Well Done 1941 3 3
Job Well Done 1942 1 1
Job Well Done 1943 2 2
Job Well Done 1944 1 1
Job Well Done 1945 1 1
Job Well Done 1946 3 3
Job Well Done 1948 1 1
Job Well Done 1949 4 4
Job Well Done 1950 1 1
Job Well Done 1951 3 2
Job Well Done 1952 6 4
Job Well Done 1953 9 5
Job Well Done 1954 6 4
Job Well Done 1955 5 5
私は現在、全体のファイルを解析し、リストにそれを置くためにこれをやっている:
with open(file, 'rt', encoding='UTF8') as input:
z = [line.strip().split('\t') for line in input]
任意のヘルプ?
それは私にエラーを与えます。 – Dawn17
@ Dawn17あなたはあなたがすでにファイルを読んでいるところだと思った。 –
私はそれを読んでいる間にファイルを解析したかった – Dawn17