apache-tika

1熱

2答えて

こんにちは私はSolrに来ると素朴なユーザーです。次のハードルに私を導いてください。 1）SolrのインデックスPDF文書ソリューションは、私は、テキストファイルへの入力PDFファイルからコンテンツを抽出するためティカアプリの0.9.jarを使用を試してみました。今私はJavaコードを書いて、Solrに文書を索引付けしようとしています。 2）私は中央のリモートサーバに文書またはインデックスのい

0熱

1答えて

Solr Tika、スタイル付きテキスト

私はこのリンクを見ました： http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika 私が得たものは、TikaからSolr for searchを検索するスタイルがない純粋なテキストです。 Solrのスタイルのテキストを使用できますか？つまり、solrで検索した

2熱

1答えて

Apache Solrで抽出されたテキストを取得する

私はApache Solrを使い慣れていないので、pdfファイルの索引作成に使用したいと考えています。私はそれを手に入れてこれまで走っていたので、追加されたpdfファイルを検索できるようになりました。しかし、結果から検索したテキストを取得できる必要があります。私はまさにそれに関するデフォルトsolrconfig.xmlでのXMLスニペットを見つけました： <requestHandler nam

2熱

1答えて

Javaによる文書構造の解析

Javaを使用して、指定されたテキスト文書からツリー構造の構造を取得する必要があります。使用するファイルタイプは共通でオープン（rtf、odt、...）でなければなりません。現在、Apache Tikaを使用して、複数の文書から平文を解析しています。正しい構造が最も確実に解析できるように、どのファイルタイプとAPIを使用するべきですか？これがTikaで可能なら、私はデモを見ることができて嬉しいで

5熱

4答えて

TIKAを使用してURLからテキストを抽出

TikaでURLからテキストを抽出することはできますか？すべてのリンクが評価されます。またはTIKAは、pdf、単語およびその他のメディア文書でのみ使用できますか？

0熱

1答えて

Solr：データインポートハンドラとsolrセル

solrセルを使用して、データインポートハンドラでリッチドキュメント（pdf、office）をインデックス化することは可能ですか？私はsolr 3.2を使用します。ありがとうございました。

0熱

2答えて

TIKAを使用してURLのコンテンツ（テキスト）を抽出する

URLからテキストを抽出するにはどうすればよいですか？私のコードでは、そのURLのソースコードを抽出しています... DefaultHttpClient client = null; client = new DefaultHttpClient(); client.getCredentialsProvider().setCredentials( new AuthScope(Aut

2熱

1答えて

次のECM技術を利用する方法 - 比較

私は理論的な質問があります。私はさまざまな形式の文書（ODS、MS office、pdf、html）を持っていますが、文書管理システムではなく、（多言語の）文書のメタデータとデータを保持するシステムであるECMシステムを実装したいと思います。（xhtml）をファイルシステムとデータベース（メタデータのみ）に変換し、データ処理（索引付け、検索）を行います。どの技術を使用し、どのように進めますか？