html-parsing

    0

    4答えて

    私はウェブページの内容を分析したい学校プロジェクトに取り組んでいます。しかし、私たちは、ナビゲーションバーやコメントのようなものに対処したいとは考えていません。特定のWebサイトを見ていれば、そのサイトのためにそのような無関係なものをフィルタリングするためのパーサを作ることができますが、これまでに遭遇したことのない任意のサイトで作業することを期待しています。 このようなことはもう存在しないと私は驚

    0

    1答えて

    空港サイトのボードからデータを解析するアプリケーションを作成します.Sheremetyevo(http://svo.aero/timetable/today/)とDomodedovo(http://www.domodedovo .ru/ru/main/airindicator/flightnew /)。 サイトのリンクを使用してオブジェクトURLを作成します。次に、メソッドopenStreamを呼

    0

    2答えて

    TouchXMLを使ってHTMLを解析しようとしています。しかし、解析したいデータ(インターネットからダウンロードしたソースを制御しない)が部分的に不正な形式になっていると思われます。解析中にさまざまなエラーが発生します。したがって、私はHTMLを修正するために内蔵のきちんとしたサポートを使用する必要があるようだが、どのようにそれを有効にするか、libtidyを私のプロジェクトにうまくリンクする方

    1

    1答えて

    このフォームをZend Frameworkで作成するとき、doctype strictで出力を検証したいが、入力に "/>"という終了タグがないため、 。 どうすれば検証に合格することができますか? 形式: require_once "Zend/Form.php"; require_once "Zend/Form/Element/Text.php"; require_once "Zend/Fo

    0

    1答えて

    問題は、添付ファイルとしてOutlook Expressにhtmlファイルを送信しても、ファイルの形式が良好なままである(インターネットエクスプローラで開く)が、メールを本文として開くと(Outlookで開く)、Outlook 2007のビューで形式が変更されます。それを避ける方法は? ログファイルからhtlmファイルを作成するために使用する関数は2つあります。パーサ関数はログファイルを読み込んで

    6

    3答えて

    私は、HTMLの束を持っています。私はBeautifulSoupで解析しています。私は私の現在の出力として、次のシングルが並ぶ文字列に出力を保存したい: <li><span class="plaincharacterwrap break"> Zazzafooky but one two three! </span></li> <li><span class="p

    1

    2答えて

    私はディスカッション掲示板のための銀色のインターフェイスを作っています。ボードのWebインターフェイスは、i、a、img、b、uのような通常のHTMLタグを許可します。だから今私はそれをSilverlightで表示できる必要があります。 これは:http://www.vectorlight.net/silverlight/controls/rich_textblock.aspxは、何も正しく表示さ

    1

    2答えて

    私のGWTアプリケーションでは、クライアント側にhtmlを含む文字列があります。それを解析して特定のhtmlタグを見つけ、そのタグのidを返すのに良い方法はありますか? ご協力いただきありがとうございます。

    1

    2答えて

    VB RegExのヘルプが必要です。 2つの具体的なことを行うために必要な2つのRegExがあります。 RegEx one - 私はこれを行う方法は正確にはわかりませんが、Hrefタグ内のすべてを取得する必要があります。すなわち、私は正規表現が.... test.htmlという 正規表現二つを返す必要が String = "<a href=""test.html"">" - 私は、部分的にこの

    1

    2答えて

    HTML/XMLを解析または操作するために正規表現を使用することは悪い考えであり、通常は行いません。しかし、代替案の欠如のためにそれを考慮する。 C#を使用して、タグの一部ではない文字列(理想的には特定のIDを持つスパンタグ)内のテキストを置き換える必要があります。 例えば、私は正規表現を使用してみました代替テキスト(私の場合は、別のスパン) ABC at start of line or ABC