私はうまくいかなかったようなものを考え出しました。私はキーワードだけを含んでいるテキストを抽出しようとしています。ウェブページにはそのキーワードがあるからです。JSoupを使用して必要なキーワードを含むWebページのテキストのみを取得するにはどうすればよいですか?
String pconcat="";
for (i = 0; i < urls.length; i++) {
Document doc=Jsoup.connect(urls[i]).ignoreContentType(true).timeout(60*1000).get();
for(int x=0;x<keyWords.length;x++){
if(doc.body().text().toLowerCase().contains(keyWords[x].toLowerCase())){
Elements e=doc.select("body:contains("+keyWords[x]+")");
for(Element element : e)
{
pconcat+=element.text();
System.out.println("pconcat"+pconcat);
}
}
}
}
私が探しキーワードは「文書」の場合は、example.comを考えてみましょう「このドメインは文書での説明の例に使用されるように確立されている。」と、私は出力を必要としますその他
検索しようとしている入出力の例です。今のところ、この結果をどのように制限したいのかはわかりません。 – Pshemo
あなたは既にページからのテキストを持っているので、単にすべての文章を繰り返し、あなたが探している単語を含むものを選ぶだけです。これは役に立ちます:http://stackoverflow.com/a/2687929/1393766 – Pshemo
実際には、特定のウェブページをクロールして特定のキーワードと一致するコンテンツを取得しようとしています。あなたのアプローチはこのページではうまくいきましたが、すべてのことがわかりません。 Cozとexample.comの2つの文があります。リンク、メニュー、タブを持つランダムなWebページを考えてみてください。このアプローチは価値があると思われます。何か案が? – Lalitha