郵便住所の形式が異なる場合や、郵便住所の1つが誤って綴られている場合に、郵便住所の照合方法を知りたいと思います。郵便番号ファジーマッチングの仕方は?
これまでのところ、私はさまざまな解決策を見つけましたが、かなり古くて効率的ではないと思います。私はいくつかのより良い方法が存在すると確信しています。もし私が読むための参照があれば、それはいくつかの人に興味があるかもしれない主題であると確信しています。私が見つけた
ソリューションは、(例はRである):あなたは、挿入、削除または変更する必要がある文字の数に等しい
レーベンシュタイン距離は、他に一つの単語を変換します。
agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE)
## [1] "accusait" "abusait"
音素
library(RecordLinkage)
soundex(x<-c('accusait','acusait','abusait'))
## [1] "A223" "A223" "A123"
スペル訂正(eventually a bayesian one like Peter Norvig's)ではなく、私は推測したアドレスに非常に効率的な使用の比較。
私はGoogleの提案を使用することについて約束していますが、同様に個人の郵便住所ではあまり効率的ではありません。
マシンラーニングの管理アプローチを使用して想像することができますが、私にはオプションではないというユーザーの誤った要求を保存する必要があります。
あなたの質問/問題をより正確に指定できますか?あなたがリストアップした(標準的な)アプローチであなたが持っている特に間違ったものや牛肉は何ですか?あなたはどのデータから始める必要がありますか? – fnl
@fnl私は郵便番号を持っているので、これらの手法は効率的ではありません。たとえば、62 bvd Col Prevostのようなフランス語のアドレスを想像してみましょう。たとえば、62 boulevard Colonel de Prevotと一致させたいとします。 2つのランダムな文字列を照合するよりも難しいです。 –
Stéphanie、あなたが記述しているのは、省略展開の問題です。それに関する多くの研究があります。それ以外は、問題を小さなものに分割するだけです。たとえば、(特定の)ケースを文字列の整列の問題として見ることもできます。 [Smith-Watermanアルゴリズム](https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm)を参照してください。 – fnl