Rがこれを試すには適切な場所かどうかはわかりませんが、ここに私の状況があります。私は文字列でいっぱいの文字ベクトルを持っています。Rスペルチェッカー/トークナイザ
id Words
1 'The'
2 'victory'
3 'wasgreat'
... ...
元のデータは、いくつかのエンコーディングの問題を抱えていたし、文字列のいくつかは、いくつかの単語のconcatenizationsです:
(ie 'My name is' -> 'Mynameis').
私は一人で正しい言葉を残しておく必要がありますし、スペルミスconcatenizationsが正しい部分文字列に分かれます。
このタイプの問題を処理するためのRの設定があるかどうか不思議です。私は、これをはるかに良く扱ういくつかのプログラムがPythonにあると思うが、私のPythonのスキルは実質的に弱い(非存在に接する)。しかし、私はこれを代替案と考えています。
提案がありますか?
http://stackoverflow.com/questions/6897214/breaking-a-string-into-individual-wordspython – fraxel