2012-09-26 21 views
5

非常に大きなHTMLストリーム/ファイルの解析にどのように取り組むかについて、誰でもポインタやアドバイスを提供することができます。例えば、私は約27万行のテーブルを持っています。私は一度に約20kのアプリにそれを持っていきたいと思います。 jsoup parseメソッドはHTMLのフラグメントを許可しますが、このフラグメントを表すXXXバイトを読み取るのに最も効率的でクリーンな方法は何かがわかりません。Jsoupで巨大なHTMLストリームを解析する

ご迷惑をおかけして申し訳ございません。

答えて

0

XHTMLで、すべてを一度にメモリに保存する必要がない場合は、SAXパーサを使用して、開始タグイベントと終了タグイベントを使用して必要なデータを選択する方がよいでしょう。

もう1つの考えはStAXパーサーかもしれません。

+0

通常のHTMLです。 – rkd80

関連する問題