2011-09-13 19 views
1

私は、フィルタされたhtmlとして「保存」されたWord文書をたくさん持っています。 htmlファイルには、削除する必要のある余分なリンクが含まれています。htmlタグは削除しますが、タグの内容は除きません

<h3><a name="OLE_LINK25">My Section Title</a></h3> 

<h3>My Section Title</h3> 

私はこれを行う方法のための任意の提案をして、自動化された方法で:たとえば、私は交換したいですか?

+2

ケアをダウンロードあなたが使っている言語? –

答えて

1

Jsoupは、「OLE」で始まるすべてのアンカータグを削除するのに役立ちます。

Elements anchors = doc.select("a[name^=OLE]"); 
for (Iterator it = anchors.iterator(); it.hasNext();) { 
    Element anchor = it.next(); 
    String text = anchor.text(); 
    Element header = anchor.parent(); 
    header.text(text); 
} 
+0

ありがとうございます。ちょうど私が必要なもの。 – moondog

1

あなたは(未テスト、最初にテストして確認してください)このような何かを試みることができる:

sed -i".backup" 's/<([^ ]+) name="OLE[^"]*">([^<]+)<\/\1>/\2/g' *.html 

これが何をするかだけWHATEVER_HERE全ての* .htmlのファイル内で<TAG name="OLE....">WHATEVER_HERE</TAG>のすべてoccurrancesを置き換えるです。必要であれば、それはまた

FILENAME.html.backupがfilename.htmlから各* .htmlのファイルのバックアップを行います、私たちに何を教えて sed for Windows

それともgnu sed

+0

ありがとうございました!私はjsoupのアプローチで終わりましたが、あなたの提案も良いように見えます。とても有難い。 – moondog

関連する問題