2013-03-02 29 views
24

Rには大量の単語を含む文字列があります。文字列を表示するときに、私は次のようなテキストが含まれて大量のテキストを取得します:文字列から特定の文字を削除するR

>docs 

.... 

\u009cYes yes for ever for ever the boys cried in their ringing voices with softened faces 

.... 

だから私は少し異なる番号を持っているそのうちのいくつかは、これらの\ u009文字(それらのすべてを、削除する方法を思ったんだけど)を文字列から削除します。私はgsub()を使ってみましたが、それは文字列から内容を取り除くのに有効ではありませんでした。

答えて

40

これは、009Cは、Unicodeの16進数です

gsub('\u009c','','\u009cYes yes for ever for ever the boys ') 
"Yes yes for ever for ever the boys " 

ここで動作するはずです。常に4桁の16進数を指定する必要があります。 あなたは多くの持っている場合は、一つの解決策は、パイプによってそれらを分離することである。

gsub('\u009c|\u00F0','','\u009cYes yes \u00F0for ever for ever the boys and the girls') 

"Yes yes for ever for ever the boys and the girls" 
+0

おかげで、これは作業それを得ました。 –

+1

について "必ず4桁を指定する必要があります": これは、ユニコードを行うときのみです。空白とダッシュを削除する必要があります: 'gsub( '| - '、 ''、 '1-444-654')' – Zak

4

試してみてください。 gsub('\\$', '', '$5.00$')

関連する問題