2011-01-28 13 views
0

Google APIを使用してページを翻訳しようとしています。一度にGoogleに送信できるデータには5000文字の制限があります。だから私はページを5000文字に分割しようとしています。しかし、これを行う際にわかっているように、HTMLフォーマットを邪魔しないように注意しなければなりません。そうしなければ、望む結果が得られません。Google翻訳のページを5000文字に分割するには?

あなたは、この送信する必要があります例えば

:この代わりに

<a href="#" class="myclass">Link</a> 

を:

<a href="#" class="myclas 

私は「<」か否かをチェックすることによって(完全に私は推測していないが)何とかそれを解決することができていますこの看板はこの看板の後に来る ">"。 "<"この記号が ">"の後に来る場合、私は ">"を見つけた箇所に戻り、そこから文字列を切ります。

とにかく、私はまだHTMLフォーマットに関するいくつかの問題を抱えており、それを効率的に行う方法を知りたいと思っています。この問題を解決するパーサーはありますか?私はアンディをしなければならなかった小さな自動翻訳と非常によく似た問題を抱えていた

おかげ

答えて

0

のような小さなもので、すべてのHTML表現を置き換えることによってそれを解決:[0]のリンクになる

<a href="#" class="myclass">Link</a> 

[0]と私はどこかに[0]がhrefを表しているところに格納します。HTML式を探すには、正規表現を使うべきです。それはその時私を助け、それがあなたにも役立つことを願っています。

デビット

+0

申し訳ありませんが、私はそれを取得しませんでした。たとえ私がそれらを置き換えても、私たちは完全なHTMLを送信することを保証し、その一部ではないことを保証しますか?私は[0]リンク[0]を送信していないことを意味します[0 – Ali

+0

それはもう一つの問題ですが、あなたはテキストを解析して壊すだけで大丈夫です。または;あなたはアイデアをカットしない –

関連する問題