apache-tika

    0

    1答えて

    私はTikaを使用して、AutoDetectParserを使用して多くのタイプ(イメージ、ビデオなど)からメタデータを抽出しています。それは静かにうまく動作し、メタデータを完全修飾名付けスタイル "tiff:XResolution"(xmp)で返します。 しかし、Tikaのメタデータ抽出とexiftoolのrdf抽出を比較すると、Tikaは多くのメタデータを返さないことがわかります。 exifto

    0

    1答えて

    solfでTika OCRを設定する方法6.4.1。 PDF、画像、MSオフィス文書を含む文書を索引付けしましたが、問題が発生しました。Tikaは画像からテキストを抽出していなかったし、PDF文書とMSオフィス文書の中にある画像も抽出していませんでした。このため私はTika OCRを研究しました。この目的のために 私はtika-app-1.7.jarとTesseractをインストールしていますが、

    0

    1答えて

    私は以下のサンプルソースコードをオンラインで見つけました。それはMyFirstTika.javaと呼ばれています。コンパイルにどのバージョンのTikaが使用されたのかわかりません。または、Tikaのすべてのバージョンが一緒に互換性がありますか? The code is linked here どれ先端が感謝に感謝

    2

    1答えて

    私は1つのhtmlページを解析し、htmlタグのクラス名またはIDを使用してテキストを取り出す必要があります。 Apache tikaまたはjsoup? htmlページの特定のタグ、ID、またはクラス名を使用してテキストを操作して取り出すことができるように、より多くのコントロールを持つツール名を教えてください。

    2

    1答えて

    Apache tikaを使用していくつかのドキュメントを解析しようとしていますが、エラーと警告が多すぎます。 build.gradle dependencies { ... compile ('org.apache.tika:tika-parsers:1.14'){ exclude group: 'org.json', module: 'json' ex

    0

    1答えて

    私は、よく知られている文書フォーマットの一握りにLucenceインデックスを作成するアプリ(.docxの、.odt、.TXTなどを作ってるんです)。 ティカは、テキストを抽出するための理想的ですが、62メガバイトに私の脂肪のjarバルーンを作るの犯人であるように思われます。 私は私のbuild.gradleでこれをやっている脂肪ジャー作るために:私はgradle dependenciesを行くとき

    0

    1答えて

    私のトポロジにtikaパーサーを含める必要があります。私は設定でjsoup.treat.non.html.as.errorをfalseと設定しました。そして、私は嵐のクローラの文書で説明されているようにtikaトポロジーを設定しました。次のようにクロールトポロジの 設定がされています builder.setSpout("spout", new MemorySpout(testURLs)); b

    2

    1答えて

    .Net Coreを使用し、Apache Tikaに.NETバインディングを使用するコンソールアプリケーションを作成する必要があります。どのように進めるべきか、皆さんは考えていますか? 「TikaOnDotNet」というラッパーが見つかりましたが、.Net Frameworkでは動作しますが、.Net Coreでは動作しないようです。この仕事をする方法はありますか?事前にお返事ありがとうございます

    0

    1答えて

    私のプロジェクトでは、request.FILES.getlist('filedname')を使用して複数のファイルを受信し、django forms saveメソッドを使用して保存しています。再びパイソンのtikaサーバーAPIを使用して同じファイルを読み込む: def read_by_tika(self, path): '''file reading using tika server

    0

    1答えて

    Windows用のApache TikaとTesseractを使用して、スキャンしたテキストを含むPNGファイルを解析しようとしています。 コマンドラインからTesseractを実行するとテキストが正しく認識されますが、Tikaが返すコンテンツには改行( "\ n")のみが含まれています。 これは私のコードです: ByteArrayInputStream inputstream = new Byt