私は現在、xpathを使用してWikiの内容を抽出するためにYQLを使用しています。このため子ノードを持つ親を選択するxpath式
私が現在使用してXPath式が\\p
.This式は<a>
、<sup>
、<strong>
などのようにすべての子ノードを除去すべての段落ノードを選択..です
私はWikipediaのサッカーのための出力を得ますこのようなページ。 Link here
この出力では、リンクが削除されます。 サッカーとして知られている多くの種類のゲームの他の用途.FORウィキペディア、フリー百科事典
から
、
やサッカーを参照してください、、、、、および.Some。左上から右下:
はすべて、足でボールを変化させてaを採点する。世界中で最も人気のある は、より一般的には と呼ばれ、「サッカー」または「サッカー」と呼ばれています。非適格であるという単語は、 に適用され、いずれの形式のフットボールが、地域の文脈 で最も人気があり、その中には、、、、、およびその他の関連する ゲームが含まれます。サッカーのこれらのバリエーションは、サッカーの「コード」として知られています。 .....................およびその他のために、ウィキペディア、フリー百科事典
からより
の予想される出力
使用方法は、サッカー(曖昧さ回避)を参照してください。
サッカーと呼ばれるさまざまなゲームのいくつかがあります。 サッカーやサッカー、オーストラリアのルール サッカー、国際ルールフットボール、ラグビー、ラグビーリーグ、および アメリカンフットボール:左上から右下 へ。
サッカースポーツすべてがはゴールを 足でボールを蹴って、程度の差はありますが。 のスポーツの中で最も人気のあるのはアソシエーションのサッカーで、より一般的には「サッカー」または 「サッカー」として知られています。修飾されていない、サッカーは サッカーのいずれかの形式に適用される単語はアメリカンフットボール、オーストラリアのルールサッカー含めて、単語 が出現する地域の文脈の中で最も人気があり、 カナダのサッカー、ゲール語のサッカー、ラグビーリーグ、ラグビーユニオン1および 他の関連ゲームサッカーのこれらのバリエーションは サッカー "コード"として知られています。
(大胆な単語がリンクしている一つです)
その子ノードと一緒に段落を抽出するので、どのように?私はxpathを初めて使用しています
あなたは// p/* –
// p/*が私に子ノードしか与えないと思っています...私は親ノードと子ノードが必要です... –
あなたの必要を誤解しました。 –