2016-09-09 5 views
1

フォルダーを見て、そのフォルダー内のすべてのパワーポイント文書の内容を、特定の文字列、できればPythonを使って検索します。これらの文字列が見つかったら、その文字列の後にあるテキストとそれが見つかった文書を報告したいと思います。情報をコンパイルしてCSVファイルで報告したいと思います。複数のパワーポイントファイルからpythonを使ってテキストを抽出する

これまでオレフィールのパッケージhttps://bitbucket.org/decalage/olefileio_pl/wiki/Homeにしか触れていません。これは特定の文書に含まれるすべてのテキストを提供しますが、これは私が探しているものではありません。助けてください。

+1

こんにちは作品Kacey作業を動作するようにあなたにそれを残しておきます! Stackoverflowへようこそ!ここStackoverflowでは、人々が修正し、時には正しく動作するように既存のコードを書き直す手助けをしています。私はあなたの質問がSOサイトの話題ではないかと心配しています。ここでどのように;あなたの基本的な質問は、「x、y、z、zを実行するコードを書くにはどうすればよいのですか?これらのタイプの質問は適切ですが、**あなたが試したことを試してみるべきです。ここで質問する前に問題を解決しようとしてください。誰が知っている、あなたはそれを自分で理解するかもしれません!あなたが試したことがうまくいかなかった場合、私たちはあなたがそれを解決するのを喜んでお手伝いします。がんばろう! –

+0

".pptx"タイプのファイルはzipファイルです。 – Marichyasana

答えて

1

python-pptxあなたが提案したことを行うために使用できます。あなたは、キーの文字列のための形状のテキストを検索し、それらを追加することについてのビットを追加する必要があると思い

from pptx import Presentation 

for pptx_filename in directory: 
    prs = Presentation(pptx_filename) 
    for slide in prs.slides: 
     for shape in slide.shapes: 
      print shape.text 

:ちょうどハイレベルで、あなたは、この(コードは動作していない、ただ、全体的なアプローチの考え方)のような何かをするだろうCSVファイルなどに変換できますが、この一般的なアプローチはうまくいくはずです。私は細かい点:)

+0

これはpptファイルには適していません.pptxファイル –

0

実際

from pptx import Presentation 
import os 


files = [x for x in os.listdir() if x.endswith(".pptx")] 


for eachfile in files: 
    prs = Presentation(eachfile) 
    print(eachfile) 
    print("----------------------") 
    for slide in prs.slides: 
     for shape in slide.shapes: 
      if hasattr(shape, "text"): 
       print(shape.text)pe.text) 
関連する問題