AlgoliaでPDFファイルを検索する（

）これは、多くのPDFファイルを持つクライアントのための投機的な考えです。AlgoliaでPDFファイルを検索する（

Algoliaはよくある質問で、PDFファイルを検索するには、ファイルからテキストを抽出する必要があると言います。これについてどうやって行きますか？ CMS経由

クライアントのアップロードPDF
CMSは、テキストを抽出
Algoliaインデックスが抽出され、それが何らかの形だにいくつかのサービス/プログラムを呼び出します。

私は作業をすると思われるシステムを想定する方法を元のPDFにリンクされています

クライアントが自動でシステムにする必要はありませんo索引。これはUbuntuで動作するLaravelのPHPで構築されます。

PDFからテキストを抽出するソフトウェア/サービスはどれですか？また、これをPDFファイルにリンクするために必要な魔法はありますか？

これを処理する可能性のある他の検索サービスについてのご意見もあります。

2016-07-28 Richard Le Poidevin

幸いにも、pdfからのテキスト抽出は、複数回適用されています。コマンドラインでは、pdftotext（LinuxまたはMacで利用可能）またはコードでライブラリApache Tika（PHP wrapperが見つかります）を使用できます。

レコードにノイズが多すぎないように、テキストを分割して段落ごとに1つのレコードを作成することをお勧めします。 Algoliaのdistinct機能を使用して、結果を重複排除することができます。

ファイルへのリンクは既にレコードに保存されていて、フロントエンドではautocomplete.jsまたはinstantsearch.jsなどのリンクを簡単に作成できます。

出典

2016-07-28 16:59:20 Jerska

いいですね。ユーザーが添付ファイルを変更したときに推奨されるアプローチは何ですか？つまり、テキストの塊を含む各文書を更新する必要があります。新しいファイルのチャンクが少ない場合はどうすればよいでしょうか？それからどのチャンクを削除するのか分かりますか？ –

ドキュメントを更新しようとするのではなく、単に 'create'、次に' delete'と考えることにします。あなたは別ファイルを使用しているので、ファイルごとに1レコードしか送っていないので、* v1 *で検索する前に 'create'の前に* v1 + v2 *の' create'の後に 'delete'の後に* v2 *。 – Jerska

AlgoliaでPDFファイルを検索する（

答えて

関連する問題