テキストの中のパターンを特定し、それらを分類する方法

薬の説明を格納するテーブルから、各エントリの製品名、強度、製品の数量、製薬会社を特定する必要があります。目標は、あらかじめ定義された構造を持つテーブルのコピーを持つことです。テキストの中のパターンを特定し、それらを分類する方法

現在のテーブル： current table

正規化されたテーブル： normalized table

これまでのところ、私は自然言語処理の少し読んだが、私は別のアプローチを知りたいです。私はRegexを使うことを考えていましたが、多くの場合があります。

あらゆる種類の洞察が認められるでしょう。

2017-10-06 Arturo Zamora

あなたが考慮すべきケース/シナリオがたくさんあるので、私は、これを処理するために私のコードでは正規表現と文字列操作のコンボを使用します。私はRegexを安全に失敗させ、（PharmaceuticalCompanyName）のような「クリーン」グループを抽出し、例えばStrengthからProduct Nameを分離するための文字列操作を使用します。 –

あなたの例に基づいて、あなたのデータは十分に正規表現でよいでしょう。試みるより洗練されたアプローチは、名前付きエンティティの認識（NER）です。 New York TimesはCRF++を使ってレシピから成分情報を抽出し、それについてhereと書いた。

出典

2017-10-06 04:10:27 polm23

テキストの中のパターンを特定し、それらを分類する方法

答えて

関連する問題