私は学習の練習としてPythonでRSSリーダーを書いています。検索するキーワードを使って個々のエントリにタグを付けることが本当に好きです。残念ながら、実際のフィードのほとんどにキーワードメタデータは含まれていません。私は現在約600のフィードからテストデータベースに約60,000のエントリを持っているので、手作業によるタグ付けは有効ではありません。キーワードを抽出するために使用Natural Language Toolkit:URLのデータベースに関連するタグをプログラムでどのように生成できますか?
1:これまでのところ私は2つのしか解決策を見つけることができました
- 長所:柔軟な。外部サービスに依存しない。
- 短所:記事ではなく、記事の概要のみをインデックスできます。重要ではない:高品質のキーワード抽出ツールを書くこと自体がプロジェクトです。
2:記事のURLからキーワードの候補を取得するためにGoogle Adwords APIを使用します。
- 長所:超高品質のキーワード。記事全体のテキストに基づいて使いやすい;
- 短所:無料(?);クエリレートの制限は不明です。私のアカウントは禁止されていて、私の商業用サイトのためにアドワーズ広告キャンペーンを運営することができないことを恐れています。
誰もが提案できますか?私のadwordsアカウントを根拠のないものにすることに対する私の恐れはありますか?
ちょっとフォローアップ:少し古い(2009年に最後に更新された)python-calaisを使用しましたが、これまで完璧に動作しています。引数としてurlをとり、python dictに解析されたcalaisレスポンスを返す便利な関数を持っています。私は、特にコスト(無料)を考慮して、提供されるメタデータの正確さと関連性に非常に感銘を受けました。 –