2016-04-06 13 views
1

私は情報としての記述しか持たないたくさんのエントリ(映画の大部分)を持つ大きなデータベースを持っています。 (例えば)ID 1のエントリの説明は次のようであってもよい。名前付きエンティティPythonの個人辞書からの認識

「フォレストガンプは、ウィンストン・グルームによって同じ名前1986新規に ベース1994年アメリカの壮大なロマンチックコメディ、映画の分類です。映画は で、Robert ZemeckisとTom Hanks、Robin Wright、Gary シネーズ、マイケルティ・ウィリアムソン、サリー・フィールドの監督を務めた。

今、私も基本的に辞書ですいくつかのTXT文書を持っており、このように構成されています。私は何をしたいか

actors.txt 

Mickey Mouse 
Tom Hanks 
... 

directors.txt 

Donald Duck 
Robert Zemeckis 
... 

は、すべてのエントリの記述を分析し、私からの固有表現を解析することです辞書。テキストに「トム・ハンクス」が含まれていれば、私はID 1を持つエントリがトム・ハンクスを俳優として持っていることを認識したいと思います。出力は次のようなものでなければなりません。

Actor: Tom Hanks, Actor: Robin Wright, Director: Robert Zemeckis, Distributor: Paramount Pictures. 

またはどのような形式のものでも簡単です。

答えて

1

SOLRを使用して、適切な辞書にリンクされているスキーマ内にtext_actorsのような新しいフィールドタイプを設定し、適切なスキーマを作成してデータベースをインポートするだけです。私が知っていることから、これは検索可能なデータベースを開発するのに役立ちます。検索可能なデータベースから、すべての結果を照会して独自のデータベースを作成できます。

関連する問題