2009-08-31 21 views
1

私は&を解析する必要があります。半構造化されたテキストの大きなセット(基本的に法的文書 - 法文、それらの補遺、条約、裁判官の決定...)。私がしようとしている最も基本的なことは、サブパートがどのように構造化されているか(章、記事、小見出し、さらにいくつかのメタデータ)の情報を抽出することです。私の質問は、誰かがこのタイプのテキスト処理の開始点を指し示すことができるかどうかです。なぜなら、これについて多くの研究が行われていると確信していますが、私が見つけたのは、厳密な文法(コードのような)または完全にフリーフォームのテキスト(Googleがウェブページ上でやりたいような)正しいキーワードを取れば、私はgoogleと私のジャーナルデータベースでもっと成功するだろうと思う。ありがとう。自然言語処理/テキスト構造解析の開始点

答えて

0

これまでにこれをしたことはありませんでしたが、もし私が行くつもりなら、間違いなくANTLRを調べるでしょう。その非常に人気のあるプロジェクトで、あなたの言語でポートを選ぶことができます。

1

natural language toolkitは興味深いスタートであり、自然言語処理のすべての分野に豊富なリソースがあります。それはおそらくあなたが必要とするよりも言語的に集中しているでしょう。

もう1つの選択肢は、厳密ではない(つまり、必要であれば大きなチャックを無視できるようにする)パーサージェネレータライブラリ(通常はコードに使用される)を使用することです。 Pythonで私はpyparsingをお勧めします。 another answerでは、任意のテキストチャプターを無視したいときにできることの簡単な例を示しました。

関連する問題