2017-11-26 6 views
-1

テキストブロックにある特定のパターンに応じて、 キーワードで事前タグ付けした大量のレジュームをインポートする作業を行っています(レジュームあたり平均約3500語)。おおよそ複数のキーワードの一致のためのテキスト前処理

たとえば、テキストブロックに "codeigniter"または "codeignitor"または "code igniter"または "code ignitor"が含まれている場合、元の単語は "codeigniter"(ある種のルールで定義されている)そのキーワードを含む行にタグを付ける(codeigniter)。

私はの線に沿って何か考えている:

$rules = array(
    "keywords" => array("codeigniter","php","mysql"), 
    "match_relevance" => 0.8 
); 

$text_analysis = $search_lib->search($rules,$text_block); 

をし、テキスト分析を返します:

print_r($text_analysis); 

array(
    "codeigniter" => 8, 
    "mysql" => 4 
) 

上記オーバー簡素化それができる方法の総額であるかもしれません私はこれが比較的似たような方法でどのように達成できるかについていくつかの方向性を探しています。

解決策は、プログラミング言語に特有のものである必要はありません。

フルテキスト検索や他の検索エンジン(Sphinx、Solr、Luceneなど)などの他の手法を使っても同様の結果が得られることは知っていますが、このユースケースでは特にテキストが必要ですから前処理する必要があります。レコードにタグを付けることを検討しています。

+0

投票している人へこれは、誰かがなぜ私に教えてくれる?これは非常に有効なユースケースとプログラミングの質問です。スタックオーバーフローの範囲を超えたアーキテクチャの議論ですか? –

答えて

0

名前のエンティティの認識とリンクについて話していますか? 満足のいく結果を達成するためには、多くの技術と豊富な技術(オープンソースかどうか)があります。

私が推薦する: - 名前エンティティの認識の基本を学び、 をリンク - あなたのユースケースのための知識ベースを定義します(または使用可能な1) - 抽出してリンクすることができソリューションを実装テキスト内のエンティティ、あなたが潜在的にオープンソースソリューションに興味がある可能性があり、[1] - 強力は履歴書に

を見つけることだった持っている検索エンジンとその統合[1] http://stanbol.apache.org

関連する問題