2017-12-15 8 views
-2

私はディレクトリ内のpdfファイルの多くのトピックに関する何百もの記事を持っています。それらの何百もの記事からキーワードgit logまたはgit diffを含むいくつかの論文を指摘する必要があります。次に、選択した記事をリストにまとめます。いくつかのpdfファイルを見つけるにはpythonを使用していくつかのキーワードが含まれています

どうすればいいですか?

+0

これまでに何度も尋ねられています。https://stackoverflow.com/questions/17098675/searching-text-in-a-pdf-using-pythonまたはhttps://stackoverflow.com/questions/34837707/をご確認ください。 pdfファイルからのテキストの抽出、またはhttps://stackoverflow.com/questions/11570466/script-to-search-for-text-from-pdf – orangeInk

+0

しかし、私がしたいことはpythonスクリプトを使って、数百のファイルからテキストエディタ(例えば、メモ帳)で選択したpdfファイルのリストを作成します。 – Yusuf

答えて

1

ライブラリを使用するのではなくされていない場合、あなたは、私がnodejsのソートの何かをやった https://github.com/euske/pdfminer

使うだけ再帰的にディレクトリをスキャンし、pdfminerを持つすべてのファイルをスキャンし、それを返すことができます結果。

Goodluck!

関連する問題