2011-07-27 13 views
0

私は幾分単純な仕事であると信じているものを事前に形成するために何が必要かを理解しようとしていますが、その実行は少し前進しているようです。Java、一連の.HTMLヘルプを照会

誰かが次の目標を見つけ出すのに役立つ例を提供できますか?

  1. 文字列
  2. ため、ローカルサーバー上のチェック様々な既知の.htmlファイルに文字列がQue_for_boardはファイル 例になります他の文字列の解析プリフォームの場合:リリースデータ、著者、プログラムなど
  3. エルス(Que_for_boardが見つからない場合)
  4. がで結果を受け取り、ファイルへ

を印刷する次のHTMLに行くには、それはそうと、これは難しいですか?私はHTMLCleanerパーサーを調べましたが、HTMLをXMLにクリーンアップする必要があるかどうかはわかりません。次のステップが詳細に記載されたクエリコードを見つけるのは難しいです。

+0

http://jsoup.org/ – BalusC

答えて

0

これは本当に難しい作業ではありませんが、実際には「そこに」存在する数多くのテクニックを使用するという問題ではありませんが、脅かされる可能性があります。

私は、タスク全体を小さな問題に分解し、最終的に全体的な解決策を組み立てることができるという信念を持って、一度に1つの問題についてしか考えないように教えることが有用な手法です。

だからここにあなたがおそらく

  1. はどこからファイルのリストを取得している(どこ?ディレクトリリスト、ドキュメント?)
  2. オープン順番にリスト内の各ファイル
  3. は、HTMLファイルを解析します
  4. これらの解析のHTMLファイル解析されたファイル

で特定の文字列を検索する潜在そう簡単には非常に簡単ではありませんか。ファイルが整形式であると信じることができますか、それとも人間によって書かれたファイルですか?人間は単に良いHTMLファイルを作っていないし、ブラウザは逃しても大丈夫です</P>など

これは単純な文字列検索、正規表現などを使って非常に単純なHTMLファイルです。それ以外の場合は、適切なパーサが必要です。おそらく最初にクリーンアップしてください。

私の最初のステップは、単一のHTMLファイルを処理する方法を理解することです。

関連する問題