私はNokigiriやRubyを使用して、このように、タグに埋め込まれたタグを持つXMLを解析しようとしています。この場合解析エンコード鋸山を使ってRubyのXML文書内のタグや正規表現
<seg>Trennmesser <ph><I.FIGREF ITEM="3" FORMAT="PARENTHESIS"></ph><bpt i="1"><I.FIGTARGET TARGET="CIADDAJA"></bpt><ept i="1"></I.FIGREF></ept></seg>
を私は言葉が必要になります埋め込まれたタグの中に「トレンネット」はありません。
この第二の例では:
<seg>Hilfsmittel <ph><[email protected]@Lge></ph>X <ph><F0></ph>= 0,5mm zwischen Beschleunigerwalze <ph><[email protected]@Lge></ph>D<ph><F0></ph> und Trennmesser schieben.</seg>
閉じ/ph
とオープンph
タグ内の単語も興味深いものですので、正規表現は「Hilfsmittel 0,5mm zwischen Beschleunigerwalze und Trennmesser schieben.
」の文字列を抽出する必要があり、他のすべてを破棄します。私はここで、文書の一部をもアップロードした
:
http://pastebin.com/Q8CdnASz