2017-01-25 3 views
0

The online NER demoは$のような通貨および百万のような言葉でよい仕事をする。例:BSESはインフラストラクチャのアップグレードと拡張に7億2000万ドル以上を投資しました。インドで使用されている用語とほとんど同じ運賃:BSESは、インフラストラクチャのアップグレードと拡張にRs 7200クローラー以上を投資しました。ルピーのような新しい通貨のためのスタンフォードNLP +列

答えて

0

最も簡単なことは、ルールベースのアプローチを使用することです。

ここで私はここで通貨rules.txt

Rs [0-9]+ crores  MONEY MISC 1 

に入れ例のルールは、私はあなたの例文で実行されていたコマンドです:

java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,regexner -regexner.mapping currency-rules.txt -file sample-sentence.txt -outputFormat text 

正しくフレーズを識別することができました"Rs 7200 crores"をMONEYとします。

あなたが任意の通貨記号を処理したいと正規化されたそれらを持っている場合も、あなたはこのクラスで見たいと思うかもしれません:

https://github.com/stanfordnlp/CoreNLP/blob/master/src/edu/stanford/nlp/ie/QuantifiableEntityNormalizer.java

あなたがインドの通貨を追加するための提案があれば、私はそれらを追加することができますこのクラス。

関連する問題