2009-11-02 16 views
6

研究プロジェクトについては、過去3ヶ月分のTwitterメッセージを取得したいと考えています。技術的な課題は別として、これは可能ですか?いくつかの種類の遅いポーリングメカニズムを使用して、レートリミッタを停滞させないでください。Twitterから履歴データを取得する

Twitter APIでは、「クライアントは、タイムラインREST APIのページとカウントパラメータで最大3,200のステータスをリクエストできます。 1日あたり?または...今まで?

提案がありますか?それは理論的に可能なのだろうか?以前は何か類似していましたか?

ありがとうございます! Marco

+0

総合概要:https://gwu-libraries.github。io/sfm-ui/posts/2017-09-14-twitter-data – Nemo

答えて

4

Twitterはnotoriously "利用可能な"つぶやきを3週間以上にしません。場合によっては1週間しかかかりません。あなたは次の3ヶ月間つぶやきを保存する方が良いです。多くの人がTwitterによって永続化されているかどうか疑問に思う。

あなたはただのつぶやきをお探しですか?その場合は、Streaming APIのstatus/sampleメソッドをご覧ください。ストリーミングAPIは永続的なHTTPソケットを使用しますが、これはプログラムに苦労する可能性がありますが、動作させると非常に優雅です。ステータス/サンプルからDBにツイートをダンプするための小さなスクリプトを設定することをお勧めします。わずか数日後に1トンのデータが必要です。

+3

あなたは古いデータを得ることはできないと約束しましたが、私はTwitterの人が最後のすべてのツイートをアーカイブしていることを誰も疑ってはいないと思います。 – pents90

+2

「多くの人がTwitterで永続化しているのかどうか疑問に思う」とはどういう意味ですか?つぶやきは、APIを使用していない3週間以上のプロフィールにも表示されます。または私はあなたを誤解しています –

+0

@JackNicholsonつぶやきは利用可能ですが、あなたの家やハッシュタグのフィードに表示されるようにインデックス形式ではありません。 – rob

3

検索APIを使用して検索を行わず、1ページあたり最大100を返し、毎分2回(1時間あたり120回 - レート制限の30倍未満) )。しかし、私の数学が正しければ、それは1時間に720,000のつぶやきを与える可能性があります.....問題は、Twitterが過去3ヶ月間に約17.5億のつぶやきを追加したことです。だから私の数学が正しければ、これを完了するのに2361日か6年かかります。

Google GroupsのTwitter Developmentトークでこの質問をすることもできますし、Twitterに連絡してホワイトリストに載せて1時間に最大20,000リクエストを作成することもできます。

私は個人的には考えられません。

+0

そのような場合、できるだけ多くのデータを取得し、ダンプされない推定パーセンテージを考慮する必要があります。私はホワイトリストに載っていますので、理論的にはそれらのすべてを手に入れたいのであれば、おそらく約20日かかるでしょう。 – Marco

+2

私は検索APIが6〜8日分のデータに戻ると信じています。 – airportyh

1

DataSiftはすぐにtwitterの履歴データapiを持っていると主張しています。利用可能な場合に通知するためにサインアップすることができます。hereあなたが最初の質問をしたときに

0

これは存在していないかもしれないが、「PeopleBrowsr」APIは、このために最適です、あなたは、単一のAPIコールで1400日戻ることができます:https://developer.peoplebrowsr.com/pb

希望に役立つこと!

0

キーホールでxlsの過去のつぶやきを取得したり、視覚的なダッシュボードに表示することができます。プレビューでは最近の数個のつぶやきだけがサンプリングされますが、電子メールで履歴データをリクエストできます。

参照:http://keyhole.co/conversation_tracking

0

あなたがGnipの歴史PowerTrackツールを使用して、Twitterの過去のデータを読み取ることができます。それはあなたに最初のつぶやき以来のすべてのツイッターデータへのアクセスを提供し、かなり簡単なツールの使用です。

-1

Sifterという私の会社が作成したサービスを使用して、データの有効範囲とコストを見積もることができます。データへのアクセスを購入する場合は、当社のテキスト分析プラットフォームDiscoverTextで利用可能になります。DiscoverTextでは、データの検索、フィルタリング、重複排除、クラスタリング、ヒューマン・コード、機械分類が可能です。

関連する問題