2012-01-25 19 views
0

私は現在、xpathを使用してWikiの内容を抽出するためにYQLを使用しています。このため子ノードを持つ親を選択するxpath式

私が現在使用してXPath式が\\p .This式は<a><sup><strong>などのようにすべての子ノードを除去すべての段落ノードを選択..です

私はWikipediaのサッカーのための出力を得ますこのようなページ。 Link here

この出力では、リンクが削除されます。 サッカーとして知られている多くの種類のゲームの他の用途.FORウィキペディア、フリー百科事典

から

やサッカーを参照してください、、、、、および.Some。左上から右下:

はすべて、足でボールを変化させてaを採点する。世界中で最も人気のある は、より一般的には と呼ばれ、「サッカー」または「サッカー」と呼ばれています。非適格であるという単語は、 に適用され、いずれの形式のフットボールが、地域の文脈 で最も人気があり、その中には、、、、、およびその他の関連する ゲームが含まれます。サッカーのこれらのバリエーションは、サッカーの「コード」として知られています。 .....................およびその他のために、ウィキペディア、フリー百科事典

からより

の予想される出力

使用方法は、サッカー(曖昧さ回避)を参照してください。

サッカーと呼ばれるさまざまなゲームのいくつかがあります。 サッカーやサッカーオーストラリアのルール サッカー国際ルールフットボールラグビーラグビーリーグ、および アメリカンフットボール:左上から右下 へ。

サッカースポーツすべてがはゴールを 足でボールを蹴って、程度の差はありますが。 のスポーツの中で最も人気のあるのはアソシエーションのサッカーで、より一般的には「サッカー」または 「サッカー」として知られています。修飾されていない、サッカーは サッカーのいずれかの形式に適用される単語はアメリカンフットボール、オーストラリアのルールサッカー含めて、単語 が出現する地域の文脈の中で最も人気があり、 カナダのサッカーゲール語のサッカーラグビーリーグ、ラグビーユニオン1および 他の関連ゲームサッカーのこれらのバリエーションは サッカー "コード"として知られています。

(大胆な単語がリンクしている一つです)

その子ノードと一緒に段落を抽出するので、どのように?私はxpathを初めて使用しています

+0

あなたは// p/* –

+0

// p/*が私に子ノードしか与えないと思っています...私は親ノードと子ノードが必要です... –

+0

あなたの必要を誤解しました。 –

答えて

0

親と子ノードを持つためには正解は//p/descendant-or-self::*です。

+0

お試しいただきありがとうございます...しかし、子ノードは親ノード内にありません...親ノード内の適切な場所に子ノードを取得する方法はありますか? –

+0

@AakashChakravarthy - 私はあなたがXPath式が返すものについて混乱していると思います。それらの段落のそれぞれの下に表示される* source * HTMLを見たいと思うように思えます。 XPath式はノードを選択するため、alainの答えを使用すると、その式が一致するノードのリストが取得されます。これはすべてのマッチの* set *です。 *階層*ではありません。 –

+1

@AakashChakravarthy - 言い換えれば、 'p' *と*' a'が 'p'の子である場合、それはリストの2つのノードを返します。それより下の子ども)。 –

関連する問題