大きなプログラムの一部として、文字列のすべての句読点を削除する必要があります。私はこのような各マークのためserepatlyそれを書くとき、それが働いている : words = [word.replace(".", "") for word in words]
しかし、私はループの中でそれを行うにしようとしています、それが機能していません。 line = "I was going to lea
from nltk import word_tokenize
list_1 = [a, b, c, d, e, f]
list_2 = [[aa, bb, cc], [dd, ee], [ff], [gg, hh, ii, jj], [kk, ll], [mm, nn, oo]]
text = 'The lazy aa moves along the hh'
text_token = w
最初の行が品詞になる行列を作成します。最初の行に文が入ります。行列内の値は、文中のそのようなPOSの数を示す必要があります。 だから私はこのようにPOSタグを作成しています: data = pd.read_csv(open('myfile.csv'),sep=';')
target = data["label"]
del data["label"]
data.sentence = dat
せずに自分の周波数を持つすべての可能な2つの単語の組み合わせを取得するにはどうすればこのようなテキストを持っています。 tmパッケージを使用することはできませんので、他の解決策がありがとうございます。組み合わせはdatを分割して、連続した2つのワードの組み合わせを抽出することにより生成することができ two words freq
this is 2
is my 2
my farm 1