多くの(1000 htmlページ)からテキストを抽出し、各ページから抽出した各テキストを独自のhtmlページ名として保存する効率的な方法を知りたいと考えています。多くのHTMLページからテキストとタイトルを抽出する効率的な方法
そこ..方法は..私はいくつかの質問と回答をテストし、見られている ..話して、それらのページが何であるかを可能な限り抽出することであるが、それは抽出された、純粋なテキスト、次の例のための
のための効率的ではないだろうリンケージやフォーマットコード、タグなどの多くの情報が私の興味を引くものではありません。このページのためにこのページのために
<html>
<title>Sport today and tomorrow </title>
<body>
<h1> sport players.</h1>
something....
<h3> sport plays </h3>
<img src="sport.jpg"/>
</body>
</html>
抽出された情報は、そのページの名前でテキストファイルに保存されているだけ含まれているので、:=スポーツ ページタイトル=スポーツ... コンテンツ....
私の質問は、ツールやソフトウェアがありますそれはできますか? この問題を扱うフィールドの名前は何ですか.. DOMや他のもののようですか?
私はこの問題に関するご意見をお寄せいただきありがとうございます。 AngleSharp
で
私のプログラミング言語は、C#..ですし、MATLABのおかげ
、あなたが探しているコンテンツの特定のパターンがありますか? – Paarth
*タイトルとテキスト*とはどういう意味ですか? * title *の内部テキストと、* text *の任意の要素の内部テキストは?
Anglesharpを見て、それは[HtmlAgilityPackよりも速い]と主張している(https://github.com/AngleSharp/AngleSharp/wiki/Performance) – har07