私は&を解析する必要があります。半構造化されたテキストの大きなセット(基本的に法的文書 - 法文、それらの補遺、条約、裁判官の決定...)。私がしようとしている最も基本的なことは、サブパートがどのように構造化されているか(章、記事、小見出し、さらにいくつかのメタデータ)の情報を抽出することです。私の質問は、誰かがこのタイプのテキスト処理の開始点を指し示すことができるかどうかです。なぜなら、これについて多くの研究が行われていると確信していますが、私が見つけたのは、厳密な文法(コードのような)または完全にフリーフォームのテキスト(Googleがウェブページ上でやりたいような)正しいキーワードを取れば、私はgoogleと私のジャーナルデータベースでもっと成功するだろうと思う。ありがとう。自然言語処理/テキスト構造解析の開始点
1
A
答えて
0
これまでにこれをしたことはありませんでしたが、もし私が行くつもりなら、間違いなくANTLRを調べるでしょう。その非常に人気のあるプロジェクトで、あなたの言語でポートを選ぶことができます。
1
natural language toolkitは興味深いスタートであり、自然言語処理のすべての分野に豊富なリソースがあります。それはおそらくあなたが必要とするよりも言語的に集中しているでしょう。
もう1つの選択肢は、厳密ではない(つまり、必要であれば大きなチャックを無視できるようにする)パーサージェネレータライブラリ(通常はコードに使用される)を使用することです。 Pythonで私はpyparsingをお勧めします。 another answerでは、任意のテキストチャプターを無視したいときにできることの簡単な例を示しました。
関連する問題
- 1. 自然言語処理データベースクエリ
- 2. 自然言語文構造の検索
- 3. トピックの自然言語処理
- 4. iPhone用の自然言語処理
- 5. PHPでの自然言語処理
- 6. 自然言語クエリ処理のデータベース
- 7. 自然言語処理 - Truecaserクラシファイア
- 8. Android用自然言語処理
- 9. 自然言語処理を使用してウェブサイトを解析する
- 10. 自然言語コマンド言語
- 11. Python対自然言語処理のためのJava
- 12. 自然言語処理のためのARFF
- 13. 自然言語の識別を解除
- 14. 自然言語解析、具体的な例
- 15. 名前付きエンティティのPython自然言語処理
- 16. 純粋な統計または自然言語処理エンジン?
- 17. 自動タグ付けのための自然言語処理ライブラリ(.NET)
- 18. SQlへの自然言語
- 19. C言語で構造体の配列を処理するマルチスレッド
- 20. 自然言語処理では、チャンキングの目的は何ですか?
- 21. 数値データを認識するための自然言語処理
- 22. 自然言語処理におけるチャンクとは何ですか?
- 23. C言語、ファイルの構造
- 24. PHPでの自然言語生成
- 25. 類似の構造のソースコードの解析とマクロのような処理
- 26. シーケンス処理または解析のための優先言語/技術
- 27. 自然言語処理を使用して文章から特定の単語を抽出します。
- 28. MIMEメッセージ構造の解析と分析
- 29. 述語論理の自然減算
- 30. htmlドキュメント構造の処理