テキスト前

私はこのような一つのテキスト：テキスト前

私は浙江省のテキストをトークン化する必要があります：行ごとと文1つの空の行の最後に一言。問題は、一部の文章に「。」がないことです。最後に。だから私は "を置く必要があります。" nuの句読点がある場合の改行。

2017-05-15 Nastja Kryvoscheya

少なくともいくつかの最初の行で、正確に答えがどうなるべきかを見せてもらえますか？ – Bohdan

Zatwierdzenie/nprotokołu\ n z \ n popnzedniego \ n posedzenia \ n：\ n patrz \ nprotokół\ n。 \ n \ nSkład\ n –

私はそれがEuroparlのために働くのか分からないが、nltkはポーランドのための文章セグメンテーションモデルが含まれています

import nltk.data 
tokenizer = nltk.data.load('tokenizers/punkt/polish.pickle') 

text = u'''Unia Europejska, UE – gospodarczo-polityczny związek 28 
demokratycznych państw europejskich. Unia powstała 1 listopada 1993 na 
mocy podpisanego 7 lutego 1992 traktatu z Maastricht jako efekt 
wieloletniego procesu integracji politycznej, gospodarczej i 
społecznej. Korzenie współczesnej integracji europejskiej sięgają 
okresu powojennego i ograniczały się do 6 państw 
zachodnioeuropejskich.''' 

ss = tokenizer.tokenize(text)

これはウィキペディアからテキストに正常に動作します：

>>> ss 
[u'Unia Europejska, UE \xe2\x80\x93 gospodarczo-polityczny ...', 
u'Unia powsta\xc5\x82a 1 listopada 1993 na\nmocy podpisanego ...', 
u'Korzenie wsp\xc3\xb3\xc5\x82czesnej integracji europejskiej ...']

出典

2017-05-15 11:21:59 wildwilhelm

あなたのコードはすでにかなり閉じていた：

input = "europarltokenized.txt" 
output = "europarlpreprocessing.txt" 

with open(input, "r") as f, open(output, "w") as f2: 
    for line in f: 
     if not line.startswith("<CHAPTER ID="): 
      sl = line.split() 
      for token in sl: 
       f2.write(token + "\n") 
      if not sl[-1] in [".", "?", "!"]: 
       f2.write(".\n") 
      f2.write("\n")

出典

2017-05-15 13:25:10

答えて

関連する問題