2011-01-08 17 views
1

お客様が に自分の会社を見つけるために使用できるサービスを実装したいと考えています。ブログ、フォーラム b。 facebook、twitter c。レビューサイトソーシャルメディア/ウェブサイトの監視サービスを実装する方法は?

a。ブログ、フォーラム これはクローラによってのみ行うことができます。フォーラム/ブログでrobots.txtを探していて、フォーラム/ブログのコンテンツ(もちろんリンク)を読んでいるクローラー。 しかしどこから始めたらいいですか?クロールを開始するために一連のサイトを使用できますか?私はそれらをあらかじめ定義しなければならないのでしょうか、あるいは他の検索エンジンを先に使うことができますか?例えば。 Googleでその会社を検索してからSERPをクロールしますか?法的?

b。 facebook、twitter 彼らにはAPIがあるので、帽子は私が思うような問題ではないはずです。

c。レビューサイト レビューサイトのTOSを見て、自分のサイトをクロールする自動ソフトウェアを使用することは許可されていないと書いています。一方、私に関連するサイトは、ロボットでは許可されていません。ここで重要なのは何ですか?

その他のヒントは歓迎します。

答えて

1

:-)事前に

おかげで正直なところ、それを行うための最も簡単な方法は、検索エンジンで開始するだろう。彼らはすべて自動検索を行うためのAPIを持っていますので、クライアントの商品やブランドのリンクや言及を返す際に、あなたの最高のリターンを得ることができます。

これは認証の背後にあるものは扱いません。公的なもの(もちろん)のみです。しかし、それはあなたに始まる良いベースラインを与えるでしょう。そこから、あなたが(もし望むなら)サイト上での認証信用を与えられたAPIやカスタム書いたボットを使うことができましたが、正直なところ私はその中核的な質問に間違っていると思います。

「私たちはどこに言及していますか?または本当に中心的な質問です... "どのサイトがトラフィックを私たちに来ているのですか?"ほとんどの場合、後者の場合、前に述べたことのすべてを無視して、クライアントのサイトでGoogleアナリティクスや類似のソフトウェアを使用して、トラフィックがどこから来ているかを判断できます。

編集 私が言及されている場所であれば、私はまだ述べたように検索エンジンで始めるでしょう。 Googleのapiは非常に簡単で、必要に応じてWeb参照として取り込むことができるSOAPベースのAPIがあります。 example

Re:サイトを確認してください。サイトのTOSが自動ボットを使用できないとしている場合は、自動ボットを使用しないことをお勧めします。 robots.txtは法的拘束力がありません(これは良い隣人のものです)、私は許可のためにそこに除外の欠如を使用しません。一部のレビューサイト(最近のもの)では、サイトの自動スクレイピングが許可されない場合がありますが、引き続きRSSフィードやAtomフィードを公開したり、他のAPIを使用してチェックする価値があります。

+0

「私たちはどこに言及されていますか? – nogamawa

+0

したがって、検索エンジンのヒントは正しいものです。それのソースは? – nogamawa

+0

レビューサイトの問題を明確にする必要があります。 – nogamawa

関連する問題