2012-03-20 7 views
3

Rがこれを試すには適切な場所かどうかはわかりませんが、ここに私の状況があります。私は文字列でいっぱいの文字ベクトルを持っています。Rスペルチェッカー/トークナイザ

id Words 
1 'The' 
2 'victory' 
3 'wasgreat' 
... ... 

元のデータは、いくつかのエンコーディングの問題を抱えていたし、文字列のいくつかは、いくつかの単語のconcatenizationsです:

(ie 'My name is' -> 'Mynameis'). 

私は一人で正しい言葉を残しておく必要がありますし、スペルミスconcatenizationsが正しい部分文字列に分かれます。

このタイプの問題を処理するためのRの設定があるかどうか不思議です。私は、これをはるかに良く扱ういくつかのプログラムがPythonにあると思うが、私のPythonのスキルは実質的に弱い(非存在に接する)。しかし、私はこれを代替案と考えています。

提案がありますか?

+2

http://stackoverflow.com/questions/6897214/breaking-a-string-into-individual-wordspython – fraxel

答えて

6

R Journalの最新号はarticle by Hornik and Murdoch on R for spell-checkingです。これはレスキューに再帰し、Rソース自体に適用されます。

+0

私は、Windows 7 x64でカスタム辞書を使用するaspellを作成する方法を理解しようと一日中してきました。 ** saveRDS()**関数と** aspell_write_personal_dictionary_file()**関数を試してみました。前者の場合、このエラーが表示されます** "UTF-8"という単語は無効です。単語 ' - 'が単語の途中に表示されないことがあります。後で** aspell **で私のカスタム辞書を見つけることができません。どのようにこれを攻撃するかについての任意のアイデア? – Diego