2017-01-28 5 views
0

私は自分のステミングアルゴリズムを作成したいケースを扱っています。私はこれにいくつかの優れたライブラリがあることを知っていますが、これはこのユースケースでは機能しません。単語を基本形式に減らすためのステマーを作成する

本質的には、単語を1つの文にループさせるために辞書をインポートしたいと思います。単語がリストに存在する場合は、それを基本形式に縮小します。

したがって、銀行に銀行員を減らしてください。私はこれを作り出しましたが、これはスケーラブルではありません。

list_bank = ('banking', 'banker') 
sentence = ("There's a banker") 
banker_tags = [] 

for word in sentence.split(): 
print(word) 

だから場合には、FEは、銀行 に「銀行家」を減らす場合list_bankのワード: #replaceワード

私はこの作業を取得する方法上の任意の提案?

+0

をとステマーは、言語に依存すべきですか? – wildplasser

答えて

2

単語とそのdictionaryに茎を入れた後、茎の形ルックアップするためにそれを使用します。

dictionary = { 'banker' : 'bank', 'banking': 'bank' } # Add the rest of your words and stems 
sentence = "There's a banker" 
for word in sentence.split(): 
    if word in dictionary: 
     word = dictionary[word] 
    print(word) 
 
There's 
a 
bank 
関連する問題