不正な形式のXMLコードを整理する問題が発生しました。SEC's edgar databaseから戻ってきました。ルビーの不正なXMLを整理する方法
何らかの理由でxmlがひどく形成されています。任意の種類の文字列を含むタグは閉じず、実際に他のタグ内に他のXMLまたはHTMLドキュメントを含むことができます。通常、私はTidyにこれを持っていたが、それは維持されていない。
Nokogiri :: XML :: SAX :: Parserを使用しようとしましたが、タグが閉じられていないためにチョークしているようです。それは、最初の終了タグに当たってからそれ以上発射されなくなるまでうまくいくように思えます。しかし、それは正しい文字を吐くことです。
これは他のxmlまたはhtmlドキュメントを無視することができるので、これが最適なオプションのようです。また、これらの文書のいくつかが非常に大きくなってメモリ全体にdomを格納するのがおそらくうまくいかない可能性があるので、これが最も理にかなっています。ここで
私はちょうど
大きなファイルを意味する場合は「かなり大きい」と定義してください。最近のほとんどのマシンは、マルチギガバイトのファイルを簡単に呑み込むことができます。 –