iTextSharpを使用してPDFファイルから構造要素を取得することは可能ですか？

C＃WinFormsアプリケーションでiTextSharpを使用してPDFファイルを解析しています。 iTextSharpを使用すると、PDFファイルからテキストデータを簡単に抽出できます。 PDFファイルに2行のテキストで囲まれたイメージが含まれているとします。この場合、画像に関する情報を抽出できませんでした。iTextSharpを使用してPDFファイルから構造要素を取得することは可能ですか？

私の要件がある：

は、それぞれが例えばタイプテキスト、イメージ、テーブルまたは他の

であるか否かをPDFファイル

プロセスの構成要素を取得し、構成要素であります次のようになります。

text :paragraph1 
text :paragraph2 
Image:Image 
text :paragraph3 
Table:table info 
text :Paragraph4

このような形式では、テキスト、画像、表、ヘッダー、フッターの情報を簡単に理解できます。

iTextSharpを使用してこのような情報を取得することは可能ですか？はいの場合は、私にこれを教えてください。それ以外の場合は、この要件を満たすことができる他のツールを提案してください。すべての

おかげで、

Saravanan

出典

2012-02-16 Saravanan

可能な複製http://stackoverflow.com/questions/5945244/extract-image-from-pdf-using-itextsharp – emd

これはC＃4.0固有のものですか？ –

@ Ryan Gates：はい...それはC＃4.0のためです – Saravanan

は、私はしばらく前に必要性のこの種を持っていました。私は（Extract images using iTextSharpから）この機能を使用する：あなたはforeach (PdfName name in xobj.Keys)文で見ることができるように

private static PdfObject FindImageInPDFDictionary(PdfDictionary pg) 
{ 
    PdfDictionary res = 
     (PdfDictionary)PdfReader.GetPdfObject(pg.Get(PdfName.RESOURCES)); 


    PdfDictionary xobj = 
     (PdfDictionary)PdfReader.GetPdfObject(res.Get(PdfName.XOBJECT)); 
    if (xobj != null) 
    { 
     foreach (PdfName name in xobj.Keys) 
     { 

      PdfObject obj = xobj.Get(name); 
      if (obj.IsIndirect()) 
      { 
       PdfDictionary tg = (PdfDictionary)PdfReader.GetPdfObject(obj); 

       PdfName type = 
        (PdfName)PdfReader.GetPdfObject(tg.Get(PdfName.SUBTYPE)); 

       //image at the root of the pdf 
       if (PdfName.IMAGE.Equals(type)) 
       { 
        return obj; 
       }// image inside a form 
       else if (PdfName.FORM.Equals(type)) 
       { 
        return FindImageInPDFDictionary(tg); 
       } //image inside a group 
       else if (PdfName.GROUP.Equals(type)) 
       { 
        return FindImageInPDFDictionary(tg); 
       } 

      } 
     } 
    } 

    return null; 
}

、私はあなたが簡単に全体のPDFを解析し、それからのデータのすべての種類を扱うことができると思います。しかし、私はあなたの必要性の "垂直性"の部分についてはよく分かりません。

お手数ですがお手伝いします。

出典

2014-01-18 21:31:10 cubitouch

このコードは、表示されているページで問題の画像が*使用されているかどうかを完全に無視します。さらに、インライン画像は無視されます。完全に。 – mkl

私はこのコードを使用して、pdfが1ページまたは複数ページの場合は常に、ページから画像を抽出します。私は彼がこのコードブロックをそのまま使用すべきだとは言わなかった...それから私の答えを改善するのを助けてくれますか？ – cubitouch

*あなたは私の答えを改善するのを手伝ってもらえますか？* - まあ、彼の質問には数多くの誤解が含まれていることを指摘することから始めることができます。 PDFに** **の段落や表はありません。場所に描かれたテキストチャンクだけです。私はこれらの誤解があなたの答えの前にほぼ1年間答えられなかった理由のいくつかであると推測します。 – mkl

iTextSharpを使用してPDFファイルから構造要素を取得することは可能ですか？

答えて

関連する問題