2011-02-24 9 views
0

AppleのMailアプリケーションがMac/iPhoneのアドレスにどのように下線を付けているかのように、テキスト形式のメールアドレスを検出できるオープンソース/コマーシャルライブラリはありますか?テキスト内のメールアドレスの検出/解析

私はちょっとしたオンラインリサーチを行っています。アイデアは、Google、Regex、または通常はかなり大規模なスタンフォードのNLPなどのNLPパッケージのフル機能のいずれかを使用するようです。 iPhoneが500MBのNLPパッケージを持っているか、電子メールを読むたびにGoogleに接続するのか疑問だ。それは私に、より簡単な方法があるべきだと信じさせる。あまりにも悪いUIDataDetectorsはオープンソースではありません。

私はこの質問が以前に尋ねられたことは知っていますが、決定的な回答はありませんでしたので、ここで私の試行です。

答えて

0

アドレスの解析は科学的なものではありません。私のオフィスでは、長年にわたりアドレス解析を行ってきましたが、問題は有効なアドレスを構成するものについては何の規則もないということです。私たちはUSPSアドレスデータベースを使用して住所を整理していますが、実際にはこれまで以上に正確かつ正確なアドレスを取得することができます。これまでのように、約90%のアドレスを清掃したところ、98%の正確さが得られます。

アドレス解析の大きな問題は、人々が同じようにアドレスを入力しないという傾向があることです。同じアドレスは、以下のすべての形式に含まれる可能性があります。

128 Eボーモントセント
128東モントストリート
128 E BMTセント
128ボーモント・ストリート
128ハイウェイ88

は、3つ目は完全に間違って見えますが、人々は時々それを入力します。時には通りも高速道路です。可能性の束があります。ちょうど90%をキャッチしようとすると、あなたはそれがアドレス解析のために得られるほど良いと受け入れます。

+0

をサポートしています https://pypi.python.org/pypi/pyap

あなたたちはどんなツール/ libsにを使用するか、あなたたちは自分自身を書いたのですか?あなたは私にいくつかのヒントを教えてもらえますか?現時点では90%以上は十分です。ところで、私はApple Mailであなたのサンプルを入力し、1,2と5だけが検出されました。 – Drew

+0

私は注文をしませんが、郵便局から毎年新しいDVDを入手します。このページはAISのデータだと思っています。 http://www.usps.com/ncsc/addressinfo/addressinfomenu.htm –

0

Extractivは、アップロードされたドキュメントまたはWebクロールのいずれかでエンティティとリレーションを解析できる市販のNLPを提供します(Language Computer Corporation)。以前のサービスはREST APIを使用しています。私はこのURLをドロップし、アドレスの4/5を抽出します。注意してください、それらを一緒に一緒に張り付けることは、特に困難になります。それらの http://rest.extractiv.com/extractiv/?url=https://stackoverflow.com/questions/5099684/detect-parse-mailing-addresses-in-text&output_format=json

ワン:このJSON出力の "アドレス" の

検索

{ 
    "id": 11, 
    "len": 17, 
    "offset": 1557, 
    "text": "128 E Beaumont St", 
    "type": "ADDRESS" 
}, 

は(注:デモのためのより多くのであるHTML出力を、使用している場合、それは除外さ私はJSONを代わりに示したのです)。

免責事項:私はExtractivで働いています。

更新: Extractivはこれ以上です。

+0

こんにちはJohn、私はExtractiveをチェックアウトし、それは本当にクールに見えます。私たちは、より多くの図書館を探していますが、Extractive as on optionも探求したいと考えています。あなたは私たちにこれについて議論することができるので、 "私をメールしてくれますか?" – Drew

+0

また、Extractivで1日あたり最大1,000件のドキュメントを処理することができます。 –

+1

リンク先から:「Extractivはもう利用できません」 – Farray

0

Drewのように実際にアドレスを抽出してUSPSデータと比較することで、非常に高い精度を得ることができます。毎年USPSからDVDを入手することは確かに有効ですが、変化するアドレスを考慮しません。そのためには、より最新のバージョンが必要です。 USPSは、更新されたアドレスデータを(独自の形式で)毎月発行し、信頼できるアドレスの良好なソースになります。

さらに、(アドレスデータを抽出した後で)アドレス検証サービスを使用すると、アドレスが標準化され、配送性や空席状況が確認されます。 Drewが述べたように、同じアドレスはまだ動作する多くの異なる方法で記述することができます。ただし、USPSは常に標準化された形式を使用します。

プログラムで探していることを実行するには、リスト処理サービスも利用できますが、間違いなくAPIが必要です。

SmartyStreetsには、LiveAddressと呼ばれる無料のアドレス検証APIがあり、米国の郵便番号を標準化、検証、検証します。完全な開示のために、私はSmartyStreetsの創始者です。

0

あなたがPyapを試すことができますPython用として:それは現在、米国とカナダのアドレス

関連する問題