私は、フィルタされたhtmlとして「保存」されたWord文書をたくさん持っています。 htmlファイルには、削除する必要のある余分なリンクが含まれています。htmlタグは削除しますが、タグの内容は除きません
<h3><a name="OLE_LINK25">My Section Title</a></h3>
<h3>My Section Title</h3>
私はこれを行う方法のための任意の提案をして、自動化された方法で:たとえば、私は交換したいですか?
私は、フィルタされたhtmlとして「保存」されたWord文書をたくさん持っています。 htmlファイルには、削除する必要のある余分なリンクが含まれています。htmlタグは削除しますが、タグの内容は除きません
<h3><a name="OLE_LINK25">My Section Title</a></h3>
<h3>My Section Title</h3>
私はこれを行う方法のための任意の提案をして、自動化された方法で:たとえば、私は交換したいですか?
あなたは(未テスト、最初にテストして確認してください)このような何かを試みることができる:
sed -i".backup" 's/<([^ ]+) name="OLE[^"]*">([^<]+)<\/\1>/\2/g' *.html
これが何をするかだけWHATEVER_HERE
全ての* .htmlのファイル内で<TAG name="OLE....">WHATEVER_HERE</TAG>
のすべてoccurrancesを置き換えるです。必要であれば、それはまた
FILENAME.html.backupにがfilename.htmlから各* .htmlのファイルのバックアップを行います、私たちに何を教えて sed for Windows
それともgnu sed
ありがとうございました!私はjsoupのアプローチで終わりましたが、あなたの提案も良いように見えます。とても有難い。 – moondog
ケアをダウンロードあなたが使っている言語? –