Rスペルチェッカー/トークナイザ

Rがこれを試すには適切な場所かどうかはわかりませんが、ここに私の状況があります。私は文字列でいっぱいの文字ベクトルを持っています。Rスペルチェッカー/トークナイザ

id Words 
1 'The' 
2 'victory' 
3 'wasgreat' 
... ...

元のデータは、いくつかのエンコーディングの問題を抱えていたし、文字列のいくつかは、いくつかの単語のconcatenizationsです：

(ie 'My name is' -> 'Mynameis').

私は一人で正しい言葉を残しておく必要がありますし、スペルミスconcatenizationsが正しい部分文字列に分かれます。

このタイプの問題を処理するためのRの設定があるかどうか不思議です。私は、これをはるかに良く扱ういくつかのプログラムがPythonにあると思うが、私のPythonのスキルは実質的に弱い（非存在に接する）。しかし、私はこれを代替案と考えています。

提案がありますか？

出典

2012-03-20 screechOwl

http://stackoverflow.com/questions/6897214/breaking-a-string-into-individual-wordspython – fraxel

R Journalの最新号はarticle by Hornik and Murdoch on R for spell-checkingです。これはレスキューに再帰し、Rソース自体に適用されます。

出典

2012-03-20 15:58:21

私は、Windows 7 x64でカスタム辞書を使用するaspellを作成する方法を理解しようと一日中してきました。 ** saveRDS（）**関数と** aspell_write_personal_dictionary_file（）**関数を試してみました。前者の場合、このエラーが表示されます** "UTF-8"という単語は無効です。単語 ' - 'が単語の途中に表示されないことがあります。後で** aspell **で私のカスタム辞書を見つけることができません。どのようにこれを攻撃するかについての任意のアイデア？ – Diego

Rスペルチェッカー/トークナイザ

答えて

関連する問題