2016-11-10 37 views
0

私が書いたこの小さなスクリプトでは、PDFファイルのデータを解析するだけです。ファイル内容をクリップボードにコピーして、Pythonでプレーンテキストファイルに自動的に貼り付けます。

しかし、私はPythonの問題、具体的にはPDFファイルからテキストを読むことができないPyPDF2モジュールを実行しているようです。印刷されたデータはすべて曖昧であり、基本的には読めません。しかし、私が読むことを試みているPDFファイルを開いたときに、単純にclick drag and ctrl+cという内容をコピーしてから、それをプレーンなtxtドキュメントに貼り付けると完璧に動作します。データを手動でコピーして貼り付けるというこのプロセスを終えると、データは読み込み可能になります。

私がしようとしているのは、正確なステップを模倣していますが、上記の手順を実行するPDFファイル内のすべてのページを通過させる代わりに自動化します。

これを達成するために他に何ができるかについての提案があれば、私はそれを高く評価します。私は、ファイルの内容は、その形式は完全に基本的に

import PyPDF2 
pdfFileObj = open('sjsuclassdata.pdf', 'rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 
pdfReader.numPages 

pageObj = pdfReader.getPage(4) 
print(pageObj.extractText()) 

EDIT を配置し直していたしかし何イムが今やろうとすると、単純にスクリプトを書くことでdocxファイルやプレーンテキストファイルにPDFファイルを変換しようとしています次の操作を実行します。

1)リードpdfファイル

2)はページ全体の内容をコピー(Ctrl + Aキー)

3)、プレーンテキストファイルにページ全体のペースト内容(Ctrl + V)

4)は、ファイルの最後までPDFを読ん

答えて

0

私はスレートを試し与えるだろう:suggestiため

import slate 

output_prefix = 'foobar' 
file_ext = 'txt' 

with open('example.pdf') as f: 
     doc = slate.PDF(f) 
     for page_number, page in enumerate(doc): 
      open('%s_%s.%s' % (output_suffix, page_number, file_ext), 'w+').write(doc[page_number]) 
+0

感謝をしかし、私は無駄にスレートをインストールしようとしています:( –

関連する問題