2016-05-13 5 views
5

私は法律、解説、裁判所書類など、数十万の法律文書(主に欧州連合のもの)のコーパスを持っています。私はアルゴリズム的にそれらを理解しようとしています。法的テキストのNLP?

私は既知の関係(時間的、この変更 - など)をモデル化しました。しかし、単一文書レベルでは、私は速い理解を可能にするより良いツールがあればいいと思う。私はアイデアを公開していますが、より具体的な質問があります:

たとえば、定型文とは対照的に、関連性のある/議論の余地のある部分を特定するNLPメソッドはありますか?最近流出したTTIPの論文は数千ページにもおよぶデータテーブルがありますが、そこにある文章は業界を破壊する可能性があります。

私はGoogleの新しいParsey McParfaceと他のNLPソリューションを使って遊んでいましたが、彼らは印象的にうまく動作していますが、意味を分離することがどれほど良いか分かりません。

答えて

1

私はあなたが面白いusecaseを持って参照してください。あなたはコーパスの存在についても言及しました(本当に良いプラスです)。私が研究論文から核を抽出するためにスケッチした解決策を関連づけてみましょう。

ドキュメントを理解するには、コンピュータにこれらの「トリガ」を探すよう指示する(または訓練する)ためのトリガが必要です。最も基本的なレベルでテキスト分類問題を単純に実装して教師付き学習アルゴリズムを使用してこれにアプローチすることができます。しかし、これは先の作業を必要とし、テキスト専門のデータから "トリガー"を識別するためのドメイン専門家の助けが必要です。文の名詞句を抽出するツールがあります。たとえば、名詞句を1つの文に入れ、共起に基づいて重みを割り当て、それらをベクトルとして表します。これがあなたのトレーニングデータです。 これは、ドメインにNLPを組み込むのには本当に良いスタートです。

-4

トリガーを使用しないでください。必要なのは、単語の曖昧さ回避とドメインの適応です。あなたは文書に意味がある、つまり意味を理解する意味を理解したいと思っています。 skosやjson-ld形式の用語の法的なオントロジを構築し、それを知識グラフにオントロジーとして表現し、それをtensorflow/parseymcparsefaceのような依存関係解析で使用することができます。または、kappaベースのアーキテクチャ(CoreNLP/Tensorflow/UIMAを使用して中間のNLPレイヤーを追加したkafka-flink-elasticsearchなど)を使用して文書をストリーミングしたり、redisを使用してflinkとelasticsearchの間でインデックス設定をキャッシュして処理を高速化できます。関連性を理解するために、検索を強化して特定のケースを適用することができます。さらに、インテントと真実を解決するためのセンチメント分析を適用します。ユースケースは、情報抽出、要約、セマンティックWeb /リンクデータの1つです。 EUには異なる法制度があるため、法的文書であることをまず一般化し、トピックや地域に関連する特定の法的概念に絞る必要があります。ここでは、LDAやWord2Vec/Sense2Vecのトピックモデリング手法を使用することもできます。また、Lemonは語彙をセマンティクスとセマンティクスに変換するのにも役立ちます。つまり、NLP-> ontology - > ontology-> NLPです。基本的に、名前付きエンティティ認識の分類にクラスタリングを供給します。また、クラスタリングを使用して、オントロジを構築したり、コサインの類似性を使用してドキュメント内の単語ベクタを確認したりできます。しかし、すべてを行うためには、文書の単語の希薄さを視覚化することが最善の方法です。常識的な推論+深い学習のようなものもあなたの場合に役立ちます。

3

文書の意味を理解するためには、何らかの意味分析を行う必要があります。あなたが文書から情報を抽出することができたら、その後、 http://cogcomp.org/page/demo_view/srl

ことがあります。

使用フレーム意味論: http://www.cs.cmu.edu/~ark/SEMAFOR/

使っ意味役割ラベリング(SRL)あなたは自分のexemplesを持つ2つの主要な可能性を持っていますどの情報が関連しているかを判断するために後処理を適用します。どの情報が関連しているかを知ることはタスクに関連しており、「関連する」情報を抽出する一般的なツールは見つけられないと思います。

関連する問題