6

Stanford CoreNLPを使用して測定をキャプチャしたいと考えています(別のエクストラクタを提案できる場合は、スタンドフォードCoreNLPの名前付きエンティティ認識では、5インチ、5インチ、5インチ、5インチのようなキャプチャ測定はどのようにできますか

例えば、私は15キロ15キロ15.0キロ15キロ15ポンド15ポンドなどCoreNLPs抽出ルールの中でも、Iドンを見つけたいです測定のために1つを見なさい。

もちろん、私は純粋な正規表現でこれを行うことができますが、ツールキットはより迅速に実行でき、より高いレベルでチャンクする機会を提供します。でも、完全な構文解析せず - - ギガバイトギガバイト一緒、およびビルディングブロックとしてRAMメモリを治療するために、彼らは128ギガバイトのRAM8ギガバイトのメモリのような大きな単位を構築します。

マシンベースではなくルールベースの抽出プログラムが必要ですが、RegexNerなどの一部として認識されません。これについてどうすればいいですか?

IBM Named Entity Extractionこれを行うことができます。正規表現は、それぞれにテキストを渡すのではなく効率的な方法で実行されます。正規表現は、すべての測定単位を単一の概念にまとめるなど、意味のある実体を表現するためにバンドルされています。

答えて

5

私は、ルールベースのシステムは、この特定のタスクのために存在するとは思わないかもしれないと思います。しかし、TokensregexNERで作るのは難しいことではありません。例えば、のようなマッピング:あなたにもバニラTokensRegexを使用してみてください、その後、ちょうどキャプチャグループと関連する値を抽出することができ

[{ner:NUMBER}]+ /(k|m|g|t)b/ memory? MEMORY 
[{ner:NUMBER}]+ /"|''|in(ches)?/  LENGTH 
... 

(?$group_name [{ner:NUMBER}]+) /(k|m|g|t)b/ memory? 
+0

これはIBM Named Entity Extractionの特殊な機能のようです。 Regexesはどんなシステムでも可能ですが、IBM NEEはパターンをはるかに効率的に実行できます。また、関連する概念を一緒に扱います。 (例えば、郵便番号は世界中で数十の書式を取るが、上位概念のためにすべて「郵便番号」である) –

+0

これは間違いない。IBMはこの種の正規表現マッチングのエンジンははるかに高速である。ただし、上記の例はCoreNLPからのものです。 TokensRegex(CoreNLPに含まれています)は、一般に、ほとんどのアプリケーションにとって十分に高速です。 (1)パターンが単純である(可変長一致がない)か、(2)それらのパターンが十分に少ないかのいずれかである。 –

+0

主に正規表現ベースのソリューションを探しているなら、GATEの[JAPE](https://gate.ac.uk/releases/gate-5.0-build3244-ALL/doc/tao/splitch7)を見ることもできます。 html)正規表現環境です。私はそれが私たちより速いとは確信していませんが、より多くのGUIをサポートしています。 –

2

独自のトレーニングデータを作成し、それに応じて必要な測定値にラベルを付けることができます。あなたはJack weighs about 50 kgs

のような文を持っている場合たとえば

だからモデルは、としてあなたの入力を分類します:

ジャック、PERSON
はMES、O
50、およそO
の重量を量ります
kgs、MES

ここで、MESは測定を表します。

私は最近、自分のカスタマイズした問題についてStanford NER taggerのトレーニングデータを作成し、そのモデルを作成しました。

私はStanford CoreNLP NERはまた、あなたが同じこと

を行うことができますのためにこれはmachine learning-basedアプローチではなく、rule-basedアプローチ

+0

は、ロハン、ありがとうございました。 MLベースのアプローチが有益な場合があります。しかし、明らかにいくつかのルールは、私たちに多くの価値をもたらします。 CoreNLPを使用しないアドホックソリューションでは、シンプルまたはパフォーマンスのために正規表現が多すぎますが、Entity Extractionツールを使用してこれらの正規表現を簡単かつ効率的にバンドルさせることができれば幸いです。 –

+0

これはIBM Named Entity Extractionの特殊な機能のようです。 Regexesはどんなシステムでも可能ですが、IBM NEEはパターンをはるかに効率的に実行できます。また、関連する概念を一緒に扱います。 (例えば、郵便番号は世界中で何十種類もの書式を取るが、すべて高位概念の目的のために「郵便番号」である)。 –

+0

これは可能です。この問題のためには多くの研究が必要です。 :) –

関連する問題