これは良いデザインのようですか?
いいえ、あなたはpythonでプログラムした場合にそれを行うことを選ぶだろうどのようなツール
?
美しいスープ
、自動的にHTMLページの右側のテーブルを見つける - おそらくいくつかのサンプルデータのためのテキストを検索し、両方
が含まれている一般的なHTML要素を見つけることを試みることによって
悪い考え。より良いアイデアは、すべてのテーブルを検索し、テーブルとXPathをテーブルにダンプするための短いスクリプトを書くことです。人はテーブルを見て、XPathをスクリプトにコピーします。
行を抽出 - 二つの要素上記のを見て、同じパッテン
悪いアイデアを選択することで。より良いアイデアは、すべてのテーブルを見つけるための短いスクリプトを書いて、見出しでテーブルをダンプすることです。ある人がテーブルを見て、Pythonコードの短いブロックを設定して、テーブル列を名前付きタプルのデータ要素にマップします。
どの列に何が含まれているかを特定する - ファジーアルゴリズムを使用して、どの列が何であるかを正確に推測します。
人はこれを簡単に行うことができます。
いくつかのPython /他のリストにエクスポートする - すべてを削除する。
ほとんどの場合、
人は、テーブルに対して正しいXPathを選択します。ある人が列名を名前付きタプルにマップするコードの短いスニペットを書いています。これらのパラメータを指定すると、Pythonスクリプトがテーブルを取得し、データをマップして有用な出力を生成することができます。
なぜ人を含むのですか?
ウェブページには悪名高いエラーが記録されているため、
最後の3年間を過ごした後、私はファジーロジックと魔法の "見つけようとしている"と "同じパテンを選んでいる"ことは良い考えではなく、うまくいかないと確信しています。
ページの「データプロファイル」を作成する簡単なスクリプトを書く方が簡単です。
単純なスクリプトを書く方が簡単です。設定ファイルを読み込んで処理します。
スクレイピングの代わりに使用できるAPIはありますか? – amelvin