多くのHTMLページからテキストとタイトルを抽出する効率的な方法

-1

多くの（1000 htmlページ）からテキストを抽出し、各ページから抽出した各テキストを独自のhtmlページ名として保存する効率的な方法を知りたいと考えています。多くのHTMLページからテキストとタイトルを抽出する効率的な方法

そこ..

方法は..私はいくつかの質問と回答をテストし、見られている ..話して、それらのページが何であるかを可能な限り抽出することであるが、それは抽出された、純粋なテキスト、次の例のための

のための効率的ではないだろうリンケージやフォーマットコード、タグなどの多くの情報が私の興味を引くものではありません。このページのためにこのページのために

<html> 
    <title>Sport today and tomorrow </title> 
    <body> 
      <h1> sport players.</h1> 
      something.... 
      <h3> sport plays </h3> 
      <img src="sport.jpg"/> 
    </body> 
</html>

抽出された情報は、そのページの名前でテキストファイルに保存されているだけ含まれているので、：=スポーツページタイトル=スポーツ... コンテンツ....

私の質問は、ツールやソフトウェアがありますそれはできますか？この問題を扱うフィールドの名前は何ですか.. DOMや他のもののようですか？

私はこの問題に関するご意見をお寄せいただきありがとうございます。 AngleSharpで

私のプログラミング言語は、C＃..ですし、MATLABのおかげ

出典

2016-05-07 wilyam pen

、あなたが探しているコンテンツの特定のパターンがありますか？ – Paarth

*タイトルとテキスト*とはどういう意味ですか？ * title *の内部テキストと、* text *の任意の要素の内部テキストは？の要素ですか？単にツールやソフトウェアを求めているのは、StackOverflowのトピックではありません。 – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/2998271/">har07</a></span> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">Anglesharpを見て、それは[HtmlAgilityPackよりも速い]と主張している（https://github.com/AngleSharp/AngleSharp/wiki/Performance） – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/2998271/">har07</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> </div> <div class="answer-title"> <span class="text-logo margin-top-sm">A</span> <h2 class="title h4">答えて</h2> </div> <div class="item-description text-md markdown-body margin-bottom-40 voidso"> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">0<i class="fa fa-thumbs-up"></i></span> <i class="fa fa-check fa-2x"></i> </div> <div class="post-offset"> <div class="answer fmt"> <p>、あなたは<code class="prettyprint-override">IHtmlDocument.Title</code>経由title要素を取得し、LINQ <a href="https://msdn.microsoft.com/en-us/library/bb360913%28v=vs.100%29.aspx?f=255&MSPPError=-2147217396" rel="nofollow"><code class="prettyprint-override">OfType<IHtmlHeadingElement>()</code></a>を使用して要素を見出し得ることができます。以下は、コンソールアプリケーションの例です：</p> <pre><code class="prettyprint-override">using AngleSharp.Dom.Html; using AngleSharp.Parser.Html; .... var raw = @"<html> <title>Sport today and tomorrow </title> <body> <h1> sport players.</h1> something.... <h3> sport plays </h3> <img src=""sport.jpg""/> </body> </html>"; var parser = new HtmlParser(); var document = parser.Parse(raw); var title = document.Title; var headings = document.All .OfType<IHtmlHeadingElement>() .Select(h => h.TextContent.Trim()) .ToList(); Console.WriteLine(title); Console.WriteLine(); foreach (var heading in headings) { Console.WriteLine(heading); } </code></pre> <p><strong>出力：</strong></p> <pre><code class="prettyprint-override">Sport today and tomorrow sport players. sport plays </code></pre> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/37108860">出典</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2016-05-09 06:15:17</span> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/2998271/">har07</a></span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> </div> </article> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4319274062" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">関連する問題</div> <ul class="relative_list"> <li> 1. <a href="http://ja.voidcc.com/question/p-utlnvpfy-da.html" target="_blank" title="多くの類似したHTMLページの効率的なコーディング"> 多くの類似したHTMLページの効率的なコーディング </a> </li> <li> 2. <a href="http://ja.voidcc.com/question/p-cvhujnww-cv.html" target="_blank" title="テキストからWikiDataエンティティを効率的に抽出します。"> テキストからWikiDataエンティティを効率的に抽出します。 </a> </li> <li> 3. <a href="http://ja.voidcc.com/question/p-zeksiqro-hu.html" target="_blank" title="jQuery - 複雑なhtmlページからテキストを抽出する"> jQuery - 複雑なhtmlページからテキストを抽出する </a> </li> <li> 4. <a href="http://ja.voidcc.com/question/p-nxiwlccd-d.html" target="_blank" title="jarファイルの効率的な抽出"> jarファイルの効率的な抽出 </a> </li> <li> 5. <a href="http://ja.voidcc.com/question/p-gbxzabxm-s.html" target="_blank" title="効率的なTIFFタイル抽出C++"> 効率的なTIFFタイル抽出C++ </a> </li> <li> 6. <a href="http://ja.voidcc.com/question/p-xxfxgokn-hm.html" target="_blank" title="コメント付きのHTMLタグからテキストを抽出する方法"> コメント付きのHTMLタグからテキストを抽出する方法 </a> </li> <li> 7. <a href="http://ja.voidcc.com/question/p-hmapgrqv-ma.html" target="_blank" title="効率的な方法でタイトルとしてPython"> 効率的な方法でタイトルとしてPython </a> </li> <li> 8. <a href="http://ja.voidcc.com/question/p-kkdqaffb-hy.html" target="_blank" title="PHP、Tumblr APIからHtml書式を取り除く効率的な方法return"> PHP、Tumblr APIからHtml書式を取り除く効率的な方法return </a> </li> <li> 9. <a href="http://ja.voidcc.com/question/p-hfbcboty-br.html" target="_blank" title="htmlファイルからテキストを抽出する"> htmlファイルからテキストを抽出する </a> </li> <li> 10. <a href="http://ja.voidcc.com/question/p-wgfjyymk-bp.html" target="_blank" title="HTMLからテキストを抽出する"> HTMLからテキストを抽出する </a> </li> <li> 11. <a href="http://ja.voidcc.com/question/p-yapgsdak-gn.html" target="_blank" title="複雑なJSONファイルから情報を抽出する最も効率的な方法は何ですか？"> 複雑なJSONファイルから情報を抽出する最も効率的な方法は何ですか？ </a> </li> <li> 12. <a href="http://ja.voidcc.com/question/p-qqnihdks-kx.html" target="_blank" title="巨大な隣接リストからエッジリストを抽出する最も効率的な方法は何ですか？"> 巨大な隣接リストからエッジリストを抽出する最も効率的な方法は何ですか？ </a> </li> <li> 13. <a href="http://ja.voidcc.com/question/p-gtsyzqbi-mw.html" target="_blank" title="Thymeleaf - 静的なHTMLページからテンプレートのhtmlページを呼び出す方法"> Thymeleaf - 静的なHTMLページからテンプレートのhtmlページを呼び出す方法 </a> </li> <li> 14. <a href="http://ja.voidcc.com/question/p-rlxlvpsv-ct.html" target="_blank" title="JavaScriptで多くのインタラクティブなカーブを効率的に描画する方法は？"> JavaScriptで多くのインタラクティブなカーブを効率的に描画する方法は？ </a> </li> <li> 15. <a href="http://ja.voidcc.com/question/p-nskphzal-mr.html" target="_blank" title="多くのデータフレームを格納するRメモリ効率的な方法？"> 多くのデータフレームを格納するRメモリ効率的な方法？ </a> </li> <li> 16. <a href="http://ja.voidcc.com/question/p-becccxwv-kb.html" target="_blank" title="Java/Android - 多くの変数を保存する最も効率的な方法"> Java/Android - 多くの変数を保存する最も効率的な方法 </a> </li> <li> 17. <a href="http://ja.voidcc.com/question/p-xhwifwfv-bt.html" target="_blank" title="PDFの検索からページ番号を記録する効率的な方法"> PDFの検索からページ番号を記録する効率的な方法 </a> </li> <li> 18. <a href="http://ja.voidcc.com/question/p-fqawpgie-kc.html" target="_blank" title="Pythonのhtmlページからテキストを抽出できません"> Pythonのhtmlページからテキストを抽出できません </a> </li> <li> 19. <a href="http://ja.voidcc.com/question/p-bimkisiy-gm.html" target="_blank" title="効率的なCSVの抽出と割り振り"> 効率的なCSVの抽出と割り振り </a> </li> <li> 20. <a href="http://ja.voidcc.com/question/p-mmsuwcsq-g.html" target="_blank" title="多対多テーブルの効率的なクエリ"> 多対多テーブルの効率的なクエリ </a> </li> <li> 21. <a href="http://ja.voidcc.com/question/p-cmfgbbgu-hg.html" target="_blank" title="効率的なページ番号付けとカウント文書の方法"> 効率的なページ番号付けとカウント文書の方法 </a> </li> <li> 22. <a href="http://ja.voidcc.com/question/p-twwsecsy-cd.html" target="_blank" title="wikipedia記事のテキストとカテゴリの情報をhtmlページから抽出します。"> wikipedia記事のテキストとカテゴリの情報をhtmlページから抽出します。 </a> </li> <li> 23. <a href="http://ja.voidcc.com/question/p-fygkrlcp-dz.html" target="_blank" title="効率的なキーワードの検出/抽出。定義済みキーワード"> 効率的なキーワードの検出/抽出。定義済みキーワード </a> </li> <li> 24. <a href="http://ja.voidcc.com/question/p-gtrlanri-gh.html" target="_blank" title="XSLを使用してHTMLからタイトルと説明のようなメタデータを抽出する方法"> XSLを使用してHTMLからタイトルと説明のようなメタデータを抽出する方法 </a> </li> <li> 25. <a href="http://ja.voidcc.com/question/p-ynhtunmb-bu.html" target="_blank" title="xcode - htmlコードからのテキストの抽出"> xcode - htmlコードからのテキストの抽出 </a> </li> <li> 26. <a href="http://ja.voidcc.com/question/p-zaornged-bc.html" target="_blank" title="htmlからテキストを抽出する際の奇妙な文字"> htmlからテキストを抽出する際の奇妙な文字 </a> </li> <li> 27. <a href="http://ja.voidcc.com/question/p-ptfeikgb-d.html" target="_blank" title="HTMLからのテキスト抽出Java"> HTMLからのテキスト抽出Java </a> </li> <li> 28. <a href="http://ja.voidcc.com/question/p-okbboxac-ca.html" target="_blank" title="ボタンのためのより効率的な方法を書くより効率的な方法"> ボタンのためのより効率的な方法を書くより効率的な方法 </a> </li> <li> 29. <a href="http://ja.voidcc.com/question/p-qrpsbvjf-x.html" target="_blank" title="効率的な方法でvmstatの出力を解析する"> 効率的な方法でvmstatの出力を解析する </a> </li> <li> 30. <a href="http://ja.voidcc.com/question/p-ubymzfyv-eb.html" target="_blank" title="ファイル名から映画タイトルを抽出する方法"> ファイル名から映画タイトルを抽出する方法 </a> </li> </ul> </div> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3534119089"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img2.voidcc.com/voidso/script/side.js?t=1652515422545"></script> <script type="text/javascript" src="http://img2.voidcc.com/voidso/plugin/highlight/highlight.pack.js"></script> <link href="http://img2.voidcc.com/voidso/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>  <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3862022848" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新の質問 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ja.voidcc.com/question/p-qyrgwout-pb.html" target="_blank" title="AWS EC2ボリュームの変更がありません"> AWS EC2ボリュームの変更がありません </a> </li> <li class="side_article_list_item"> 2. <a href="http://ja.voidcc.com/question/p-hxwvbbqo-oz.html" target="_blank" title="複数のプロジェクトにTFS API経由で、または1度TFS Web UI経由でユーザー権限を与えます"> 複数のプロジェクトにTFS API経由で、または1度TFS Web UI経由でユーザー権限を与えます </a> </li> <li class="side_article_list_item"> 3. <a href="http://ja.voidcc.com/question/p-kykrbijs-op.html" target="_blank" title="角度クリップを使用する代わりにwebpackを直接使用するメリット"> 角度クリップを使用する代わりにwebpackを直接使用するメリット </a> </li> <li class="side_article_list_item"> 4. <a href="http://ja.voidcc.com/question/p-cnuxjjjf-oq.html" target="_blank" title="次のステートレス入力をフォーカスするにはどうすればいいですか？"> 次のステートレス入力をフォーカスするにはどうすればいいですか？ </a> </li> <li class="side_article_list_item"> 5. <a href="http://ja.voidcc.com/question/p-zwrbthmf-ow.html" target="_blank" title="UIKitの中央ナビゲーション"> UIKitの中央ナビゲーション </a> </li> <li class="side_article_list_item"> 6. <a href="http://ja.voidcc.com/question/p-xgbbafet-on.html" target="_blank" title="電子レンダラープロセスでsqliteを使用できません： "未定義の '_handle'プロパティを読み取ることができません""> 電子レンダラープロセスでsqliteを使用できません： "未定義の '_handle'プロパティを読み取ることができません" </a> </li> <li class="side_article_list_item"> 7. <a href="http://ja.voidcc.com/question/p-rolgyany-oo.html" target="_blank" title="言葉は[カウント]どういう=の星が"> 言葉は[カウント]どういう=の星が </a> </li> <li class="side_article_list_item"> 8. <a href="http://ja.voidcc.com/question/p-tfzahvij-oh.html" target="_blank" title="Googleクラウド機能GitHubの自動デプロイ担当者は言う：サービスのタイムアウト"> Googleクラウド機能GitHubの自動デプロイ担当者は言う：サービスのタイムアウト </a> </li> <li class="side_article_list_item"> 9. <a href="http://ja.voidcc.com/question/p-vswvweqq-oh.html" target="_blank" title=""h2o4gpu-0.1.0-py36-none-any.whlはこのプラットフォームではサポートされていません。""> "h2o4gpu-0.1.0-py36-none-any.whlはこのプラットフォームではサポートされていません。" </a> </li> <li class="side_article_list_item"> 10. <a href="http://ja.voidcc.com/question/p-dhykjhny-oe.html" target="_blank" title="RailsコントローラがTypeErrorで失敗する - 「フェイルセーフ応答中のエラー」？"> RailsコントローラがTypeErrorで失敗する - 「フェイルセーフ応答中のエラー」？ </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 関連する問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ja.voidcc.com/question/p-utlnvpfy-da.html" target="_blank" title="多くの類似したHTMLページの効率的なコーディング"> 多くの類似したHTMLページの効率的なコーディング </a> </li> <li class="side_article_list_item"> 2. <a href="http://ja.voidcc.com/question/p-cvhujnww-cv.html" target="_blank" title="テキストからWikiDataエンティティを効率的に抽出します。"> テキストからWikiDataエンティティを効率的に抽出します。 </a> </li> <li class="side_article_list_item"> 3. <a href="http://ja.voidcc.com/question/p-zeksiqro-hu.html" target="_blank" title="jQuery - 複雑なhtmlページからテキストを抽出する"> jQuery - 複雑なhtmlページからテキストを抽出する </a> </li> <li class="side_article_list_item"> 4. <a href="http://ja.voidcc.com/question/p-nxiwlccd-d.html" target="_blank" title="jarファイルの効率的な抽出"> jarファイルの効率的な抽出 </a> </li> <li class="side_article_list_item"> 5. <a href="http://ja.voidcc.com/question/p-gbxzabxm-s.html" target="_blank" title="効率的なTIFFタイル抽出C++"> 効率的なTIFFタイル抽出C++ </a> </li> <li class="side_article_list_item"> 6. <a href="http://ja.voidcc.com/question/p-xxfxgokn-hm.html" target="_blank" title="コメント付きのHTMLタグからテキストを抽出する方法"> コメント付きのHTMLタグからテキストを抽出する方法 </a> </li> <li class="side_article_list_item"> 7. <a href="http://ja.voidcc.com/question/p-hmapgrqv-ma.html" target="_blank" title="効率的な方法でタイトルとしてPython"> 効率的な方法でタイトルとしてPython </a> </li> <li class="side_article_list_item"> 8. <a href="http://ja.voidcc.com/question/p-kkdqaffb-hy.html" target="_blank" title="PHP、Tumblr APIからHtml書式を取り除く効率的な方法return"> PHP、Tumblr APIからHtml書式を取り除く効率的な方法return </a> </li> <li class="side_article_list_item"> 9. <a href="http://ja.voidcc.com/question/p-hfbcboty-br.html" target="_blank" title="htmlファイルからテキストを抽出する"> htmlファイルからテキストを抽出する </a> </li> <li class="side_article_list_item"> 10. <a href="http://ja.voidcc.com/question/p-wgfjyymk-bp.html" target="_blank" title="HTMLからテキストを抽出する"> HTMLからテキストを抽出する </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div>  <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://ja.voidcc.com/contact">お問い合わせ</a></li> <li>© 2020 JA.VOIDCC.COM</li> <li><a rel="nofollow" href="https://beian.miit.gov.cn/" target="_blank">沪ICP备13005482号-13</a></li> <li><script type="text/javascript" src="https://s9.cnzz.com/z_stat.php?id=1280098168&web_id=1280098168"></script></li> <li><a href="http://cn.voidcc.com/" target="_blank" title="程序问答园区">简体中文</a></li> <li><a href="http://hk.voidcc.com/" target="_blank" title="程序問答園區">繁體中文</a></li> <li><a href="http://ru.voidcc.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.voidcc.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.voidcc.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.voidcc.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.voidcc.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.voidcc.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.voidcc.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.voidcc.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.voidcc.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.voidcc.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.voidcc.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer>  <script async src="https://www.googletagmanager.com/gtag/js?id=UA-77509369-5"></script> <script> window.dataLayer = window.dataLayer || []; function gtag() { dataLayer.push(arguments); } gtag('js', new Date()); gtag('config', 'UA-77509369-5'); </script> <script> var _hmt = _hmt || []; (function () { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?67d4731349f0b00136755b80364ce381"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>