2009-07-06 12 views
0

htmlドキュメント構造の処理について説明するリソースがあるかどうかは疑問でした。たとえば、ニューヨークタイムズのページがあり、どのページであっても、主要な記事がどこにあるのか、ページの重要な要素はどこにあるのか理解したいと思います。いくつかのウェブサイトでは、生のhtml文書はこの種の処理のための何らかの指示を与えます。他のサイトでは、一般的には書式設定タグ(フォントなど)です。私はOCR技術を見てきましたが、それらのほとんどは個々の要素を認識するために使用されていますが、これはOCRとはまったく異なる問題です。htmlドキュメント構造の処理

誰でもこのトピックに関する洞察があれば、非常に感謝しています!

+0

のようなHTMLパーサの上に何かを構築することができます。あなたが消費するためにこの情報を公開している場合を除き、私は彼らがあなたのビジネスのどれともみなさないと考えています。 –

+0

私は単に、メタデータが完全ではない、または利用できない場合に有用なコンテンツをキャプチャするというこのタイプの問題に対する一般的なアプローチを必要としています – FurtiveFelon

答えて

1

あなたが探しているものは、「スクリーンスクレイピング」または「データスクレイピング」と呼ばれています.Google検索では、これについてさまざまな結果が得られます。ここではウィキペディアからのリンクがあります:Web Scraping

あなたは、これはサイトの一握り以上のために文書化された場合、私は驚かれることでしょうhpricot

関連する問題