構造化されていない テキストを解析する必要があるアプリケーションで作業しています。私はそれから名前、住所エリア、都市、国および郵便番号 を解析する必要があります。住所はインディアンになります。構造化されていないテキストからの名前とアドレスの解析
サンプル入力: 「私は私が3年以上の経験を有するウェブデザインに優れていますXYZの会社で働いABC 午前私はkothrud、プネ-411038、マハラシュトラ州に住んで 。。。」
出力: NAME:ABC AREA:KOTHRUD CITY:PUNE STATE:マハラシュトラ 郵便番号:私はこれのために私がする必要がありますパース都市のApacheのConceptMapperを使用することを計画して 述べています411038
自分で辞書を作ってください。しかし、 ができると思います。郵便番号については、私は正規表現を使用することができます。私はどのように 名前とエリアを解析するに固執しています。正規表現を使用すると、 のハッキングやパターンが多く名前と領域を取得できますが、より良い解決法がある場合は があるかどうか疑問に思っています。
私が照会できるデータベースはありますか?それはアドレスを返しますか?私は Googleマップ/場所を調べていませんが、アドレス を簡単に解析できますか?
いずれの入力も高く評価されます。
ありがとうございました。
あなたはどのようなコンテキストで作業しなければなりませんか?意味は、米国の住所、またはインドの住所に制限されている住所ですか?それを制限することは非常に役に立ちます。 – Jeffrey