データを相互参照するときのファジー検索の使用

私の部署は、データマイニング/会社ダッシュボードで使用するための広範な社内ソースからのデータの収集と表示を処理します。データを相互参照するときのファジー検索の使用

私たちが抱えている大きな課題の1つは、さまざまな部門間で場所の名前を相互参照することです。私たちはかなり大規模な組織であり、異なる利益を持つ部署は、いずれかの場所で独自のレポートを作成します。一般的には、所在地名がそれらの部門にわたる報告書に含まれているというEXACT名には矛盾があります。場所は、いくつかの改修を通過するとき

素敵なレストラン
素晴らしいレストラン
素晴らしいF & B
..：例えば、場所と呼ぶことができますファビュラスカフェ '
さらにはPrセンター12345ABC ofit

だから私の質問は、ベストプラクティスは、私たち自身のデータベースとのコードでこれらの名前を調和に存在する何ですか？私の部署が共通の階層標準（最適な解決策になる）の下で組織を統一する能力を持っていないと考えてみましょう。現時点では、私たちの慣行は、絶えず増大するロケーション名の参照テーブルを維持し、それを私たち自身の命名標準に戻して参照することです。これにより、当社のデータとの歴史的整合性を維持することができます。

場所を相互参照するときに、ある種の「ファジー検索」を実装することは可能ですか？たとえば、 "the"のような言葉のインスタンスを無視するか、または "定義されたロジック"に基づいて "カフェ"と "レストラン"を等しく扱うようなものがあります。

私たちが遭遇するすべてのランダム命名規則をアルゴリズム的に説明できるとは思えませんが、いくつかの/ほとんどを説明するには十分ですか？

出典

2012-02-10 Hari Seldon

可能ですが、十分ですか？それはビジネスの人々がそれについて何を考えているかによって決まります。ここには曖昧に似た質問があります： http://stackoverflow.com/questions/1983717/finding-approximately-duplicate-database-records-using-t-sql/1985034#1985034 –

キーワードはdata-integrationです。タグ付けされたファジー検索はinformation-retrievalで一般的です。ここでは間違いありません。しかし、あなたが与えた例は、自動統合のために少し難しいかもしれません、ユーザーの介入と適切なdata-cleaningが必要です。

ファジーマッチングを使用して、音楽プレイリストを再インポートできました。インターネットからでも。タイトルとアーティストは、通常、私の音楽コレクション（少なくとも私が歌を持っている場合）にかなり信頼できるファジーマッチングを行うのに十分なデータを提供します。

しかし、「素晴らしいレストラン」の例のように、基本的に1つの単語しかない場合、ファジーマッチングは信頼できません。

良いファジーマッチングは、語幹を使用し、共通の単語と同義語の概念を持ちます。だから、 "レストラン"と "カフェ"はおそらく重要ではないと考えられます。要点は、十分なデータを持つことです。単一の単語では、おそらく場所を識別するのに十分ではありません。

出典

2012-02-11 11:14:05

データを相互参照するときのファジー検索の使用

答えて

関連する問題