WinnovativeのPdfToTextライブラリを評価中で、私に関係することに遭遇しました。NUnitを実行するとサードパーティ製のPdfライブラリがかなり遅くなる
すべてがうまく動作し、私はコンソールアプリケーションを実行している場合すぐに小さな20k以下のpdfからテキストコンテンツを抽出することができます。しかし、NUnit guiから同じコードを呼び出すと、15〜25秒かかります(私はPdfToTextであることを確認しました。テキストを抽出してF10を押して、次の行)。
私は原因を知らないので、どこに責任があるのかわからないので、これは私に関係しています。 NUnitやPdfToTextに問題はありますか?私がしたいのは、pdfからテキストを抽出することですが、特定の条件下でこの動作を見るつもりなら、20秒は完全に不合理です。 NUnitを実行しているときだけであれば問題ありませんが、それ以外の場合は別の場所を探す必要があります。あなたは( http://dl.dropbox.com/u/273037/PdfToTextProblem.zip:
それは完全なVSソリューション(2010)を使用して、問題を実証する方が簡単ですので、ここでのリンクは、セットアップと実行(NUnitのかPdfToText、あるいはサンプルのPDFをダウンロードする必要はありません)に、それを容易にするためです32ビットマシンで実行している場合は、x86 dllを使用するためにPdfToTextへの参照を変更する必要があります)。
F5を押すだけで、NUnit Guiランナーが読み込まれます。
私はこのライブラリに縛られていませんが、iTextSharpを試してみましたが(2行のコードでは高価です)、Asposeを見ました(私は試していませんでしたが、SaaSライセンス$ 11kです)。しかし、それらは必要な機能が不足しているか、あまりにも高価です。
? iTextの4.1.6バージョンでは、クローズドソーシングソリューションが可能です。 4.1.6はテキスト抽出器を直接持っていませんが、 'PdfReader'と' GetPageContent() 'を使って書くのはあまり難しくありません。 –
PDFは全く複雑ではありません。列や画像はありません。フォーマットされたテキストだけです。しかし、v5.0より前のSourceForgeにiTextSharpのバージョンはありません。私が古いバージョンを手に入れることができると思っていますか?または、Javaバージョン(これは.NETアプリケーション)を使用する必要がありますか。 –
私はここでソースを見つけたようです:http://itextsharp.svn.sourceforge.net/viewvc/itextsharp/tags/。ありがとう、私はそれを試してみましょう! –