2016-04-29 6 views
-2

Java API(スタンフォード、Apache OpenNLPで提供されているものを除く)を使用してトークナイザを構築しようとしています。 私は正規表現とJavaパターン/マッチャーを使用して単語を分離することができました。私は今、言葉の補題を見つけたいビルドJava Lemmatizer

"[a-zA-Z]+". 

。 StanfordNLPのライセンス問題のためにStanfordNLPを使用したくありません。 次は? 私は、参照する/比較するモデルとして辞書が必要だと思います。 そして...? 誰もそこに行ったことがありますか? Javaを使用して単語リーマライザを構築しようとしていますか?前もって感謝します。 :)

+0

次の理由で、httpリクエストを簡単に作成できます。 – dirai

答えて

0

単語のリストがあり、 "run"、 "runs"、 "ran"、 "running"のように2つの単語が同じかどうかを知りたい場合。

http://www.oxforddictionaries.com/definition/english/run?q=runs

は、その後、あなたがしている場合、HTTP要求をプログラムすることができますにリダイレクトこの場合

http://www.oxforddictionaries.com/definition/english/runs

ページを: あなたはに、たとえば、辞書にHTTPリクエストを行うことができますそれは他の言葉にリダイレクトされ、その後は同じです。

あなたが読むことができる

http://www.oxforddictionaries.com/definition/english/run

:次に

あなたは(過去分詞ラン;過去走った/ /走った実行、実行しているが)

動詞のような他の場合には

ページの情報を解釈するためのパーサーを作成することができます

Javaでは、

HttpClient httpClient = new DefaultHttpClient(); 
HttpGet httpGet = new HttpGet(URL); 
関連する問題