Stanford CoreNLPを使用して測定をキャプチャしたいと考えています(別のエクストラクタを提案できる場合は、スタンドフォードCoreNLPの名前付きエンティティ認識では、5インチ、5インチ、5インチ、5インチのようなキャプチャ測定はどのようにできますか
例えば、私は15キロ、15キロ、15.0キロ、15キロ、15ポンド、15ポンドなどCoreNLPs抽出ルールの中でも、Iドンを見つけたいです測定のために1つを見なさい。
もちろん、私は純粋な正規表現でこれを行うことができますが、ツールキットはより迅速に実行でき、より高いレベルでチャンクする機会を提供します。でも、完全な構文解析せず - - ギガバイトとギガバイト一緒、およびビルディングブロックとしてRAMとメモリを治療するために、彼らは128ギガバイトのRAMと8ギガバイトのメモリのような大きな単位を構築します。
マシンベースではなくルールベースの抽出プログラムが必要ですが、RegexNerなどの一部として認識されません。これについてどうすればいいですか?
IBM Named Entity Extractionこれを行うことができます。正規表現は、それぞれにテキストを渡すのではなく効率的な方法で実行されます。正規表現は、すべての測定単位を単一の概念にまとめるなど、意味のある実体を表現するためにバンドルされています。
これはIBM Named Entity Extractionの特殊な機能のようです。 Regexesはどんなシステムでも可能ですが、IBM NEEはパターンをはるかに効率的に実行できます。また、関連する概念を一緒に扱います。 (例えば、郵便番号は世界中で数十の書式を取るが、上位概念のためにすべて「郵便番号」である) –
これは間違いない。IBMはこの種の正規表現マッチングのエンジンははるかに高速である。ただし、上記の例はCoreNLPからのものです。 TokensRegex(CoreNLPに含まれています)は、一般に、ほとんどのアプリケーションにとって十分に高速です。 (1)パターンが単純である(可変長一致がない)か、(2)それらのパターンが十分に少ないかのいずれかである。 –
主に正規表現ベースのソリューションを探しているなら、GATEの[JAPE](https://gate.ac.uk/releases/gate-5.0-build3244-ALL/doc/tao/splitch7)を見ることもできます。 html)正規表現環境です。私はそれが私たちより速いとは確信していませんが、より多くのGUIをサポートしています。 –