2012-02-29 11 views

答えて

0

あなたがWindowsに組み込まれIFilterの機能を使用することができ、ここではいくつかのサンプルコードで記事です:

Using-IFilter-in-C

PDFファイルの問題は、あなたがの平文を抽出することができるしている場合でも、ということですPDF形式で読むことができます(ではありません。の保証があります)、テキストのフォーマットは完全に解除されます。改行のような単純なものでも多くの場合失われます。

+0

richardそれはPDFをテキストに変換しています。あなたが私に言ったように、それはスタイル、フォーマット、画像、グラフィックスなどを失ってしまったので、変換でこのすべてのことをどうやって得るのか、あなたのポストに感謝します。 – andy

+1

書いてなくてもフォーマットを回復することはできませんPDF形式を直接解析する独自のアプリケーションです。これは非常に難しい作業です - 人間開発時間。 それでも、PDFは、Wordなどのフローベースの文書に変換されない方法で構築されます(テキスト/グラフィックスが折り返し線を引いて次のページに流れるなど)。内部的にPDFファイルにはテキストフロー/ラッピング情報がほとんど含まれていないため、小さなテキスト/グラフィックスとページ上の*絶対位置に整理される傾向があります。 そのためには、サードパーティのソリューションをお勧めします。 – richardtallent

関連する問題