2017-11-26 4 views
0

enter image description here私はワードクラウドの作成に取り組んでいます。作成時には、最後のアルファベットがない多くの単語が表示されます。例:Movie - > movi、become - > become私のTerm Document Matrixに最後に文字がないのはなぜですか?

私は黄色で単語をマークしました。最後の1〜2文字が欠けている

+0

これは変わっているかもしれませんが、ステミングはスペルの代わりに単語の発音を考慮しているので、この問題ですか? –

答えて

1

この質問に対する回答が必要な方 - 私たちのデータにステミングを実行すると、ステム機能が同じルート単語。これらすべての単語は、その根本に設定されます。これが「映画」を「Movi」と見なす理由です。

0

単語の最後に欠けている文字は、プレステッシング - ステミングの結果です。 DTMやTDMを作成する前にステミングすることを避け、ステミングなしでワードクラウドを作成してください。

関連する問題