2011-12-29 7 views
0

単語bigramとその頻度をテキストファイルで検索するmatlabプログラムを作成しました。この目的のために、私はtextread関数を使って文字列のセル配列を作成しました:matlabを使用してファイルからテキストを読み込み中に特定の単語をスキップ

unigrams = textread( 'file.txt'、 '%s');

また、 'to'、 'the'、 'is'、 'or'など特殊文字 '#'、 '$'、 '&'、 '%'などの単語を省略したい場合は、私の細胞アレイから。生ファイルから単語を読みながらこれらの単語を除外する方法はありますか?

ありがとうございました。

+1

を* *ファイルから単語を読んでいない間*あなたがそれをしたいと思う理由を具体的な理由があります*の後に?そうでない場合、以下の私の答えを見てください。 – Kavka

+0

これにはPythonを使用することをお勧めします。具体的にはNLTKです。 – cyborg

+0

@cyborg私は同意します... pythonは文字列処理に最適です。 –

答えて

1

あなたは、不要な言葉削除するテキストの読み後setdiffを使用することができます。

unigrams = {'I' 'like' 'this' 'or' 'that' 'Here' 'are' 'some' 'symbols' '#' '$' '&'} 
setdiff(unigrams, {'the', 'is' 'or' '#' '$' '&'}, 'stable') 

unigrams = 
    Columns 1 through 8 
    'I' 'like' 'this' 'or' 'that' 'Here' 'are' 'some' 
    Columns 9 through 12 
    'symbols' '#' '$' '&' 
ans = 
    'I' 'like' 'this' 'that' 'Here' 'are' 'some' 'symbols' 
+0

私は読書の後*これを行う簡単な方法の束があることに同意します。 OPはそれをやりたがっている*読んでいる間に - 理由は分かっていないが... –

+0

**読み込み後に**操作が実行されるとパフォーマンスが向上すると私は信じている。これは、ポスターが尋ねたやり方ではないかもしれませんが、ファイル全体がメモリに収まると仮定すると、同じ効果が得られます。 –

+0

私は既にバイブルラムを見つけるために何千ものファイルを読み込んでいますが、これは多くの時間を要します。だから私はこれらの言葉を除外するために最高の実行方法が必要です。 Kavkaによって提案された方法は完全に動作します。単語を除外する別のより良い実行方法がある場合、その前または後にファイルを教えてください。 @サイボーグPythonでこれらのコードを実行するより良い方法があれば、私はPythonを一度も使用したことがありません。 @ all助けてくれてありがとう。 – AbbyJ

関連する問題