私はトラッキングしているN個の異なるキーワードを持っています(簡単にするため、N = 3とします)。ですから、GETステータス/フィルタでは、 "track"引数に3つのキーワードを指定します。ステータス/フィルタ(ストリーミングAPI)から受け取ったツイートのフィルタリング
今、私が受け取るつぶやきは、私が言及した3つのキーワードのどれでもかまいません。 問題は、どのツイートがどのキーワードに対応しているかを解決したいのです。 、つまりツイートとキーワード(「track」引数に記載されている)との間のマッピングです。
どうやら、受け取ったつぶやきの処理を行わなければ、これを行う方法はありません。
だから私はこの処理を行うための最良の方法は何ですか? ツイートのテキストでキーワードを検索しますか?大文字小文字を区別しないのはどうですか?同じキーワードに複数の単語が含まれている場合はどうでしょうか(例:「Katrina Kaif」)?
私は現在、いくつかの正規表現を策定しようとしています...
私はもともとステータス/フィルタAPIも使用されているのと同じロジック(正規表現など)を使用するでしょう最善の方法を考えていました。どのようなロジックがTwitterのAPIステータスで使用されているか知っている/どのようにキーワードをつぶやくに一致するフィルタ自体?
アドバイス?助けて?
PS:私は、Python、Tweepy、正規表現、MongoDBの/ ApacheのS4(分散コンピューティングのための)
大規模なNの正規表現は非常に苦しいかもしれません。最も単純な方法は、テキストを小文字に変換することであり、各キーワードチェックツイートの存在を確認することです。正確な一致を確認したい場合は、あなたのつぶやきをトークン化し、キーワードセットとトークンセットの共通部分を取得します。交差点は、ツイートと一致するキーワードになります。 – cubbuk
@cubbuk:現在、N = 100です。ツイートの「テキスト」部分のみでキーワードを検索するのが好ましいですか? – user1599964
私の知る限り、ツイッターはツイートのみのテキスト部分にマッチするので、テキスト部分をチェックする方が適しています。 – cubbuk