単語bigramとその頻度をテキストファイルで検索するmatlabプログラムを作成しました。この目的のために、私はtextread関数を使って文字列のセル配列を作成しました:matlabを使用してファイルからテキストを読み込み中に特定の単語をスキップ
unigrams = textread( 'file.txt'、 '%s');
また、 'to'、 'the'、 'is'、 'or'など特殊文字 '#'、 '$'、 '&'、 '%'などの単語を省略したい場合は、私の細胞アレイから。生ファイルから単語を読みながらこれらの単語を除外する方法はありますか?
ありがとうございました。
を* *ファイルから単語を読んでいない間*あなたがそれをしたいと思う理由を具体的な理由があります*の後に?そうでない場合、以下の私の答えを見てください。 – Kavka
これにはPythonを使用することをお勧めします。具体的にはNLTKです。 – cyborg
@cyborg私は同意します... pythonは文字列処理に最適です。 –