私は比較的大きなテキストベースのWeb分類問題に取り組んでいます。私はpythonでsklearnで多項式Naive Bayesクラシファイアを使用し、クロール用にscrapyフレームワーク。しかし、私はsklearn/pythonが何百万ものウェブサイトの分類を含む可能性のある問題に対して遅すぎるかもしれないと少し気にしています。私はすでにDMOZの数千のウェブサイトで分類器を訓練しました。 大規模なアプリケーション分類/スクラップ練習にsklearnとPythonを使用する
1)クローラはドメイン名に上陸し、サイト上の20のリンク(1つ以下の深さのもの)からテキストをスクレイプします。 (ここでトークン化された単語の数は、クローラのサンプル実行では数千から最大150Kまで変化するようです) 2)約50,000のフィーチャを持つsklearn multionmial NBクラシファイアを実行し、結果に応じてドメイン名を記録してください
私の質問は、Pythonベースのクラシファイアがこのような大規模アプリケーション用のタスクになるかどうかです。より高速な環境でクラシファイア(そしておそらくスクレーパーとワードトークナイザ)を書き直すべきですか?はいの場合、その環境は何か? コードの並列化に伴ってPythonで十分でしょうか? おかげ