2017-10-06 2 views
3

薬の説明を格納するテーブルから、各エントリの製品名、強度、製品の数量、製薬会社を特定する必要があります。目標は、あらかじめ定義された構造を持つテーブルのコピーを持つことです。テキストの中のパターンを特定し、それらを分類する方法

現在のテーブル: current table

正規化されたテーブル: normalized table

これまでのところ、私は自然言語処理の少し読んだが、私は別のアプローチを知りたいです。私はRegexを使うことを考えていましたが、多くの場合があります。

あらゆる種類の洞察が認められるでしょう。

+0

あなたが考慮すべきケース/シナリオがたくさんあるので、私は、これを処理するために私のコードでは正規表現と文字列操作のコンボを使用します。私はRegexを安全に失敗させ、(PharmaceuticalCompanyName)のような「クリーン」グループを抽出し、例えばStrengthからProduct Nameを分離するための文字列操作を使用します。 –

答えて

0

あなたの例に基づいて、あなたのデータは十分に正規表現でよいでしょう。試みるより洗練されたアプローチは、名前付きエンティティの認識(NER)です。 New York TimesはCRF++を使ってレシピから成分情報を抽出し、それについてhereと書いた。

NER Example

関連する問題