2016-07-28 8 views
2

)これは、多くのPDFファイルを持つクライアントのための投機的な考えです。AlgoliaでPDFファイルを検索する(

Algoliaはよくある質問で、PDFファイルを検索するには、ファイルからテキストを抽出する必要があると言います。これについてどうやって行きますか? CMS経由

  • クライアントのアップロードPDF
  • CMSは、テキストを抽出
  • Algoliaインデックスが抽出され、それが何らかの形だ にいくつかのサービス/プログラムを呼び出します。

    私は作業をすると思われるシステムを想定する方法を 元のPDFにリンクされています

クライアントが自動でシステムにする必要はありませんo索引。 これはUbuntuで動作するLaravelのPHPで構築されます。

PDFからテキストを抽出するソフトウェア/サービスはどれですか?また、これをPDFファイルにリンクするために必要な魔法はありますか?

これを処理する可能性のある他の検索サービスについてのご意見もあります。

答えて

2

幸いにも、pdfからのテキスト抽出は、複数回適用されています。コマンドラインでは、pdftotext(LinuxまたはMacで利用可能)またはコードでライブラリApache TikaPHP wrapperが見つかります)を使用できます。

レコードにノイズが多すぎないように、テキストを分割して段落ごとに1つのレコードを作成することをお勧めします。 Algoliaのdistinct機能を使用して、結果を重複排除することができます。

ファイルへのリンクは既にレコードに保存されていて、フロントエンドではautocomplete.jsまたはinstantsearch.jsなどのリンクを簡単に作成できます。

+0

いいですね。ユーザーが添付ファイルを変更したときに推奨されるアプローチは何ですか?つまり、テキストの塊を含む各文書を更新する必要があります。新しいファイルのチャンクが少ない場合はどうすればよいでしょうか?それからどのチャンクを削除するのか分かりますか? –

+0

ドキュメントを更新しようとするのではなく、単に 'create'、次に' delete'と考えることにします。あなたは別ファイルを使用しているので、ファイルごとに1レコードしか送っていないので、* v1 *で検索する前に 'create'の前に* v1 + v2 *の' create'の後に 'delete'の後に* v2 *。 – Jerska

関連する問題