Java機能DOM API、regexpなどを使用してhtmlページ内のデータ型を検出する最も良い方法は何ですか? Skypeプラグインのようなタイプを検出したいのですが、電話番号やメールアドレス、時間などに似ています。HTMLページ内のさまざまなデータ型を検出する方法は?
答えて
「タイプ」は、あなたが参照している情報の種類にとって不適切な用語です。 DOM APIまたは正規表現の選択は、ページ内の情報構造によって異なります。
情報を表示するために使用されているテーブルなどの構造を知っている場合は、電話番号とセルのどちらのセルを見つけることができるかを既に知っているので、DOM API 。
それ以外の場合は、解析しないでプレーンHTMLテキストでregexを使用する必要があります。
一致するクローズタグが見つからない場合、DOM APIは凶悪化しませんか?すべてのページが整形式であるとは期待できません。 – user183037
@userどのAPI実装を使用しているかによって異なります。よく整形されていないページにうまく対応するような成熟した実装がたくさんあります。私はコブラパーサーで非常に良い経験を持っています:http://lobobrowser.org/cobra.jsp – craftsman
私は次の順序で正規表現を使用したい:テキストにちょうどプレーンテキストに
- エキスのみBODYコンテンツ
もちろん、これはマークアップがヒントを提供していないことと、ページコンテキストを変更せずに純粋にデータを抽出していることを前提としています。このことができます
希望、
フィルLelloの
Hey Phil、 それは本当に大変です。さらに、問題の1つは関連する型を見つけることです。その理由のいくつかは、通貨、番号、電話番号のように非常に似ているため、正規表現の使用が非常に複雑になります –
- 1. HTML/JavaScriptによるウェブサイトレイアウトのさまざまな方法は?
- 2. さまざまなデータ型を返す関数
- 3. C#のさまざまなコントロールでカスタム検証を適用する方法は?
- 4. favicon.icoファイルからさまざまなサイズのアイコンを抽出する方法は?
- 5. さまざまなブラウザでさまざまな高さのHTML要素
- 6. jQueryは1つのテキストボックス内のさまざまなデータをオートコンプリートします
- 7. 検索された列のデータ型を検索する方法
- 8. Pythonで大きなデータを読み取るさまざまな方法
- 9. さまざまなネットワークシナリオをシミュレートする方法は? (Javaで)
- 10. さまざまなフォントサイズでUILabelを作成する方法は?
- 11. Joomlaでクエリを構築するさまざまな方法は?
- 12. 認証でサーバーからデータを要求するさまざまな方法
- 13. この出力にはさまざまな方法が必要です
- 14. ビュー内のさまざまな要素(ラベルのデータ)をレイジー/非同期に読み込む方法は?
- 15. さまざまな変数の型を取得する
- 16. ページ内のどのフレームでもクリックを検出する方法
- 17. コンテナ内のさまざまなイメージ
- 18. パリンドロームをテストするさまざまな方法のパフォーマンス[Python]
- 19. サーブレットのコンテキストを取得するさまざまな方法
- 20. さまざまな画面サイズで画像内のマウスクリックの位置を検出する - Jquery/JavaScript
- 21. 型チェックを避けながら配列型または集合型の値を検出する方法
- 22. usingステートメント(C#)でさまざまな型を使用する
- 23. 動的に生成されたC#コードでさまざまな型変数を初期化する方法は?
- 24. javacriptのページ検索でfindを検出する方法はありますか?
- 25. ペイント法でさまざまなサイズのテキストを描画する方法は?ブラックベリー
- 26. リストをクリアするさまざまな方法
- 27. さまざまなデバイスでAndroidアプリケーションエンタープライズアプリケーションをテストする方法
- 28. JavaScript - オブジェクトを構成するさまざまな方法
- 29. Pythonスクリプトを実行するさまざまな方法
- 30. SelectMany()を使用するさまざまな方法
あなたは、関連する答えをしたい場合は、あなたは、問題の詳細を与える必要があります。これらの任意のWebページ、またはあなたが構造を知っている特定のWebページですか?彼らは整形式ですか?ページのどこかにある既知の場所に値がありますか?ユーザーに表示されていれば気になりますか?これはウェブクロールの問題ですか?あなたはブラウザのプラグインでこれをやろうとしていますか?そして、一般的に、あなたは何をしようとしていますか? –
Hey Stephen、 これは構造、表、リスト、デザイン要素などが異なる一般的なHTMLページです。 私はユーザーの目に見えるだけの要素を検証したいと思います。 これはテストの問題、ブラックボックスです。クロールはおそらく最良の選択ですが、私はブラウザプラグインも考慮に入れることができます –