PythonでODFをlxmlで解析する

ODFファイル内のcontent.xmlを解析しようとしています。ファイルを文字列に読み込んだので、lxml.etreeを使ってツリーオブジェクトを取得しました。PythonでODFをlxmlで解析する

tree = etree.XML(string)

しかし、今ではすべてのサブ要素、つまりORテキスト：hを見つける必要があります。前の質問でXPathを使用できると言われました。私は試しましたが、毎回固まってしまいました。それらの要素の1つを見つけることさえできません。

は私がしようとした場合：

elem = tree.xpath('//text:p')

は、私がどれだけ私はので、私はそれらを反復処理することができます右の順にthooseサブ要素の両方とのリストを取得しますので、

XPathEvalError: Undefined namespace prefix

を取得しますか？

textは、ODF schemaで定義されている名前空間の略語であるためです。試してみてください

tree.xpath('//text:a | //text:h', 
      namespaces={'text': 'urn:oasis:names:tc:opendocument:xmlns:text:1.0'})

|は、組合演算子です。 LXML docsも参照してください。

2011-09-14 20:39:57

素晴らしい！ Thnx。さて、どのようにしてそこにOR文を得て、pとtext：hの両方のテキストを取得しますか？ –

ああ、忘れてしまった。今すぐ答えに加えました。 –

私はちょうどgoogle "xpath演算子"によってそれを見つけることができた。だから試してみるとすみません。しかし、私は昨夜、本当に不満でした。とにかくありがとう！ :) –

答えて