2013-03-28 8 views
42

データベースの重複名を減らすために、文字列の正規化コピーを作成しようとしています。名前には多くの国際文字(アクセント付き文字)が含まれており、アクセントを削除してコピーを作成したいと思います。UTF-8国際文字からアクセントを削除するRubyメソッド

私は以下の方法に遭遇しましたが、動作させることはできません。 Unicode Hacksプラグインが何であるかを見つけることができません。

# Utility method that retursn an ASCIIfied, downcased, and sanitized string. 
    # It relies on the Unicode Hacks plugin by means of String#chars. We assume 
    # $KCODE is 'u' in environment.rb. By now we support a wide range of latin 
    # accented letters, based on the Unicode Character Palette bundled inMacs. 
    def self.normalize(str) 
    n = str.chars.downcase.strip.to_s 
    n.gsub!(/[à áâãäåÄÄ?]/u, 'a') 
    n.gsub!(/æ/u,     'ae') 
    n.gsub!(/[ÄÄ?]/u,    'd') 
    n.gsub!(/[çÄ?ÄÄ?Ä?]/u,   'c') 
    n.gsub!(/[èéêëÄ?Ä?Ä?Ä?Ä?]/u, 'e') 
    n.gsub!(/Æ?/u,     'f') 
    n.gsub!(/[ÄÄ?Ä¡Ä£]/u,   'g') 
    n.gsub!(/[ĥħ]/,    'h') 
    n.gsub!(/[ììíîïīĩĭ]/u,  'i') 
    n.gsub!(/[įıijĵ]/u,   'j') 
    n.gsub!(/[ķĸ]/u,    'k') 
    n.gsub!(/[Å?ľĺļÅ?]/u,   'l') 
    n.gsub!(/[ñÅ?Å?Å?Å?Å?]/u,  'n') 
    n.gsub!(/[òóôõöøÅÅ?ÅÅ]/u, 'o') 
    n.gsub!(/Å?/u,     'oe') 
    n.gsub!(/Ä?/u,     'q') 
    n.gsub!(/[Å?Å?Å?]/u,    'r') 
    n.gsub!(/[Å?Å¡Å?ÅÈ?]/u,   's') 
    n.gsub!(/[ťţŧÈ?]/u,   't') 
    n.gsub!(/[ùúûüūůűŭũų]/u,'u') 
    n.gsub!(/ŵ/u,     'w') 
    n.gsub!(/[ýÿŷ]/u,    'y') 
    n.gsub!(/[žżź]/u,    'z') 
    n.gsub!(/\s+/,     ' ') 
    n.gsub!(/[^\sa-z0-9_-]/,   '') 
    n 
    end 

特定のライブラリ/宝石を「必要とする」必要がありますか?あるいは、誰かがこれについて別の方法で推薦することもできます。

私はRailsを使用していませんし、そうする予定もありません。

+1

あなたはどのRubyのバージョンを使用しているの? – Huluk

+0

http://stackoverflow.com/questions/1268289/how-to-get-rid-of-non-ascii-characters-in-ruby – MurifoX

+3

をご覧ください:https://github.com/norman/unidecoder –

答えて

148

私は一般的に、この処理するために国際化を使用します。

1.9.3p392 :001 > require "i18n" 
=> true 
1.9.3p392 :002 > I18n.transliterate("Hé les mecs!") 
=> "He les mecs!" 
+3

[ドキュメント](http://api.rubyonrails.org/classes/ActiveSupport/Inflector.html#method -i-翻字)。ロケールごとに音訳を設定できることも非常に強力です。 –

+0

これは私が探しているようだ。ありがとう。 –

+2

私の鼻のすぐ下に。本当にありがとう! – Trip

8

これまでのところ、次は私が必要なものを達成することができました唯一の方法である:

str.tr(
"ÀÁÂÃÄÅàáâãäåĀāĂ㥹ÇçĆćĈĉĊċČčÐðĎďĐđÈÉÊËèéêëĒēĔĕĖėĘęĚěĜĝĞğĠġĢģĤĥĦħÌÍÎÏìíîïĨĩĪīĬĭĮįİıĴĵĶķĸĹĺĻļĽľĿŀŁłÑñŃńŅņŇňʼnŊŋÒÓÔÕÖØòóôõöøŌōŎŏŐőŔŕŖŗŘřŚśŜŝŞşŠšſŢţŤťŦŧÙÚÛÜùúûüŨũŪūŬŭŮůŰűŲųŴŵÝýÿŶŷŸŹźŻżŽž", 
"AAAAAAaaaaaaAaAaAaCcCcCcCcCcDdDdDdEEEEeeeeEeEeEeEeEeGgGgGgGgHhHhIIIIiiiiIiIiIiIiIiJjKkkLlLlLlLlLlNnNnNnNnnNnOOOOOOooooooOoOoOoRrRrRrSsSsSsSssTtTtTtUUUUuuuuUuUuUuUuUuUuWwYyyYyYZzZzZz") 

しかし、これを使用しては非常に「ハック」感じている、と私はより良い方法を見つけるのが大好きです。

+1

これはISO-8859-1でのみ動作します。あなたはUTF-8でうまくいくと思いますか? – pts

+0

これはUTF-8とruby 2.2.3で動作します。しかし、いくつかのルーマニアの文字を欠いている。私はそれらをadedました: 'string.tr( "ÀÁÂÃÄÅàáâãäåĀāĂ㥹ÇçĆćĈĉĊċČčÐðĎďĐđÈÉÊËèéêëĒēĔĕĖėĘęĚěĜĝĞğĠġĢģĤĥĦħÌÍÎÏìíîïĨĩĪīĬĭĮįİıĴĵĶķĸĹĺĻļĽľĿŀŁłÑñŃńŅņŇňʼnŊŋÒÓÔÕÖØòóôõöøŌōŎŏŐőŔŕŖŗŘřŚśŜŝŞşŠšŞşsŢţŤťŦŧŢţÙÚÛÜùúûüŨũŪūŬŭŮůŰűŲųŴŵÝýÿŶŷŸŹźŻżŽž"、 "AAAAAAaaaaaaAaAaAaCcCcCcCcCcDdDdDdEEEEeeeeEeEeEeEeEeGgGgGgGgHhHhIIIIiiiiIiIiIiIiIiJjKkkLlLlLlLlLlNnNnNnNnnNnOOOOOOooooooOoOoOoRrRrRrSsSsSsSsSssTtTtTtTtUUUUuuuuUuUuUuUuUuUuWwYyyYyYZzZzZz")' – Alexander

関連する問題