apache-tika

0熱

1答えて

私はTikaを使用して、AutoDetectParserを使用して多くのタイプ（イメージ、ビデオなど）からメタデータを抽出しています。それは静かにうまく動作し、メタデータを完全修飾名付けスタイル "tiff：XResolution"（xmp）で返します。しかし、Tikaのメタデータ抽出とexiftoolのrdf抽出を比較すると、Tikaは多くのメタデータを返さないことがわかります。 exifto

0熱

1答えて

solerでTesseractを設定する6.4.1

solfでTika OCRを設定する方法6.4.1。 PDF、画像、MSオフィス文書を含む文書を索引付けしましたが、問題が発生しました。Tikaは画像からテキストを抽出していなかったし、PDF文書とMSオフィス文書の中にある画像も抽出していませんでした。このため私はTika OCRを研究しました。この目的のために私はtika-app-1.7.jarとTesseractをインストールしていますが、

0熱

1答えて

Apache Tikaのどのバージョンが、次のTikaコードの例を作成するために使われましたか？

私は以下のサンプルソースコードをオンラインで見つけました。それはMyFirstTika.javaと呼ばれています。コンパイルにどのバージョンのTikaが使用されたのかわかりません。または、Tikaのすべてのバージョンが一緒に互換性がありますか？ The code is linked here どれ先端が感謝に感謝

2熱

1答えて

htmlタグのクラス名またはIDを使用して1つのhtmlページを解析してテキストを取り出す方法は？

私は1つのhtmlページを解析し、htmlタグのクラス名またはIDを使用してテキストを取り出す必要があります。 Apache tikaまたはjsoup？ htmlページの特定のタグ、ID、またはクラス名を使用してテキストを操作して取り出すことができるように、より多くのコントロールを持つツール名を教えてください。

2熱

1答えて

AndroidでApache Tikaを使用する方法

Apache tikaを使用していくつかのドキュメントを解析しようとしていますが、エラーと警告が多すぎます。 build.gradle dependencies { ... compile ('org.apache.tika:tika-parsers:1.14'){ exclude group: 'org.json', module: 'json' ex

0熱

1答えて

Gradleでは、ティカ - 「脂肪ジャー」を作り、いくつかの依存パッケージを除外太りすぎ

私は、よく知られている文書フォーマットの一握りにLucenceインデックスを作成するアプリ（.docxの、.odt、.TXTなどを作ってるんです）。ティカは、テキストを抽出するための理想的ですが、62メガバイトに私の脂肪のjarバルーンを作るの犯人であるように思われます。私は私のbuild.gradleでこれをやっている脂肪ジャー作るために：私はgradle dependenciesを行くとき

0熱

1答えて

再帰的クロール用のTikaを使用したStorm Crawlerの設定

私のトポロジにtikaパーサーを含める必要があります。私は設定でjsoup.treat.non.html.as.errorをfalseと設定しました。そして、私は嵐のクローラの文書で説明されているようにtikaトポロジーを設定しました。次のようにクロールトポロジの設定がされています builder.setSpout("spout", new MemorySpout(testURLs)); b

2熱

1答えて

Apache Tika on .Net Coreの使い方は？

.Net Coreを使用し、Apache Tikaに.NETバインディングを使用するコンソールアプリケーションを作成する必要があります。どのように進めるべきか、皆さんは考えていますか？「TikaOnDotNet」というラッパーが見つかりましたが、.Net Frameworkでは動作しますが、.Net Coreでは動作しないようです。この仕事をする方法はありますか？事前にお返事ありがとうございます

0熱

1答えて

djangoファイルオブジェクトをtikkaサーバーに入れてください

私のプロジェクトでは、request.FILES.getlist('filedname')を使用して複数のファイルを受信し、django forms saveメソッドを使用して保存しています。再びパイソンのtikaサーバーAPIを使用して同じファイルを読み込む： def read_by_tika(self, path): '''file reading using tika server

0熱

1答えて

TikaのTesseractを使用：結果に改行のみが含まれています

Windows用のApache TikaとTesseractを使用して、スキャンしたテキストを含むPNGファイルを解析しようとしています。コマンドラインからTesseractを実行するとテキストが正しく認識されますが、Tikaが返すコンテンツには改行（ "\ n"）のみが含まれています。これは私のコードです： ByteArrayInputStream inputstream = new Byt