apache-tika

    1

    2答えて

    こんにちは私はSolrに来ると素朴なユーザーです。次のハードルに私を導いてください。 1)SolrのインデックスPDF文書 ソリューションは、私は、テキストファイルへの入力PDFファイルからコンテンツを抽出するためティカアプリの0.9.jarを使用 を試してみました。今私はJavaコードを書いて、Solrに文書を索引付けしようとしています。 2)私は中央のリモートサーバに文書またはインデックスのい

    0

    1答えて

    私はこのリンクを見ました: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika 私が得たものは、TikaからSolr for searchを検索するスタイルがない純粋なテキストです。 Solrのスタイルのテキストを使用できますか? つまり、solrで検索した

    2

    1答えて

    私はApache Solrを使い慣れていないので、pdfファイルの索引作成に使用したいと考えています。私はそれを手に入れてこれまで走っていたので、追加されたpdfファイルを検索できるようになりました。 しかし、結果から検索したテキストを取得できる必要があります。 私はまさにそれに関するデフォルトsolrconfig.xmlでのXMLスニペットを見つけました: <requestHandler nam

    2

    1答えて

    Javaを使用して、指定されたテキスト文書からツリー構造の構造を取得する必要があります。使用するファイルタイプは共通でオープン(rtf、odt、...)でなければなりません。現在、Apache Tikaを使用して、複数の文書から平文を解析しています。 正しい構造が最も確実に解析できるように、どのファイルタイプとAPIを使用するべきですか?これがTikaで可能なら、私はデモを見ることができて嬉しいで

    5

    4答えて

    TikaでURLからテキストを抽出することはできますか?すべてのリンクが評価されます。またはTIKAは、pdf、単語およびその他のメディア文書でのみ使用できますか?

    0

    1答えて

    solrセルを使用して、データインポートハンドラでリッチドキュメント(pdf、office)をインデックス化することは可能ですか? 私はsolr 3.2を使用します。 ありがとうございました。

    0

    2答えて

    URLからテキストを抽出するにはどうすればよいですか?私のコードでは、そのURLのソースコードを抽出しています... DefaultHttpClient client = null; client = new DefaultHttpClient(); client.getCredentialsProvider().setCredentials( new AuthScope(Aut

    2

    1答えて

    私は理論的な質問があります。私はさまざまな形式の文書(ODS、MS office、pdf、html)を持っていますが、文書管理システムではなく、(多言語の)文書のメタデータとデータを保持するシステムであるECMシステムを実装したいと思います。 (xhtml)をファイルシステムとデータベース(メタデータのみ)に変換し、データ処理(索引付け、検索)を行います。 どの技術を使用し、どのように進めますか?