私の部署は、データマイニング/会社ダッシュボードで使用するための広範な社内ソースからのデータの収集と表示を処理します。データを相互参照するときのファジー検索の使用
私たちが抱えている大きな課題の1つは、さまざまな部門間で場所の名前を相互参照することです。私たちはかなり大規模な組織であり、異なる利益を持つ部署は、いずれかの場所で独自のレポートを作成します。一般的には、所在地名がそれらの部門にわたる報告書に含まれているというEXACT名には矛盾があります。場所は、いくつかの改修を通過するとき
- 素敵なレストラン
- 素晴らしいレストラン
- 素晴らしいF & B
- ..:例えば、場所と呼ぶことができますファビュラスカフェ '
- さらにはPrセンター12345ABC ofit
だから私の質問は、ベストプラクティスは、私たち自身のデータベースとのコードでこれらの名前を調和に存在する何ですか?私の部署が共通の階層標準(最適な解決策になる)の下で組織を統一する能力を持っていないと考えてみましょう。現時点では、私たちの慣行は、絶えず増大するロケーション名の参照テーブルを維持し、それを私たち自身の命名標準に戻して参照することです。これにより、当社のデータとの歴史的整合性を維持することができます。
場所を相互参照するときに、ある種の「ファジー検索」を実装することは可能ですか?たとえば、 "the"のような言葉のインスタンスを無視するか、または "定義されたロジック"に基づいて "カフェ"と "レストラン"を等しく扱うようなものがあります。
私たちが遭遇するすべてのランダム命名規則をアルゴリズム的に説明できるとは思えませんが、いくつかの/ほとんどを説明するには十分ですか?
可能ですが、十分ですか?それはビジネスの人々がそれについて何を考えているかによって決まります。ここには曖昧に似た質問があります: http://stackoverflow.com/questions/1983717/finding-approximately-duplicate-database-records-using-t-sql/1985034#1985034 –