2012-04-02 7 views
-4

異なる国の特定の単語の特定のバリエーションを説明する一連の基本的なhtmlテーブルを、データベースで使用するための作業用スプレッドシートに変換するスクリプトを作成しようとしています。各表は、各国の単一の単語の翻訳に適用されます。テーブルはテーブルからスプレッドシートにデータを書き込むための正規表現スクリプト

</table> 

を終了するまで、このフォーマットが継続..................

<h5><a name="akas"> equivalent names in different countries </a> </h5> 
<table border="0" cellpadding="2"> 

<tr> 
<td>character string </td> 

<td> country name/country name/country name</td> 

</tr> 

<tr> 
<td>character string </td> 

<td>country name</td> 

</tr> 

:HTMLでは、の形式をとります

各国の名前はテーブル間で繰り返されており、スプレッドシート上の列見出しを表し、その見出しには同等の語の行があります。私は完全に正規表現(私は実際に取得するには困惑している)とJavascriptでも初心者に新しいです。繰り返しますが、このタイプのデータをより大きなデータベースで使用するための作業用スプレッドシートに再編成する方法のヘルプが必要です。誰かが私を助けることができれば、本当に感謝します。

+1

何が質問ですか? – Kashyap

+0

質問は、上記の例のように複数の国がある場合でも、​​の間で国名を認識するようにするにはどうすればいいですか?​​ user1309067

+0

これでデータを抽出し、CSVファイルを作成するsedスクリプトを書くことができます。 – Kashyap

答えて

1

DOMの解析とXPathを参照してください。 XPathでは、htmlファイルを照会して、必要なノードの内容を取得できます。

+0

正規表現を使用したHTMLの解析... http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – aaaidan

0

HTML表をスプレッドシートに貼り付けることができます。

+0

問題は、テーブルがすべて一致しないことです。完全に、すなわち時には​​の間に複数の国があり、毎回異なるグループにすることができます。私はスクリプトに何らかの形で各国の名前を認識させ、先行するデータを正しいスプレッドシートのセルに配置します。また、コンパイルしようとしているこれらのテーブルの数は1000個です。 – user1309067

関連する問題