私はpythonを使用してツイートテキストからのコメントを抽出するコードに取り組んでいます。pythonを使って言葉を抽出するには?
パラメータはツイートテキストです。この関数は、ツイートのすべての記述がツイートに表示されている順序で返されます。返されたリスト内の各言及は、最初の言及シンボルが取り除かなければならない、とリストが遭遇したすべての言及含まれている必要があります - ユーザーが一度tweet.Here内よりも多く言及されている場合は2例であり、繰り返しを含めた:
>>>extract_mentions('@AndreaTantaros- You are a true journalistic\
professional. I so agree with what you say. Keep up the great\
[email protected] ')
['AndreaTantaros','RepJohnLewis']
>>>extract_mentions('@CPAC For all the closet #libertarians attending \
#CPAC2016 , I'll be there Thurs/Fri -- speaking Thurs. a.m. on the main\
stage. Look me up! @CPAC')
['CPAC','CPAC']
言及は「@」記号で始まり、スペース文字、句読点、またはツイートの終わりまでのすべての英数字を含みます(ただしこれには含まれません)。
文字列からのコメントをどのように抽出できますか?と申し訳ありませんが、私は正規表現について学んでいない、他の方法はありますか?
someone'sのメールアドレスが何か - [email protected]ですか? –
これは、次のように正規表現を '.'の後ろに3文字だけマッチさせることによって簡単に変えることができます:' [\ w] + @ [\ w] + \。[a-z] {3} '。それはOPによって彼女が望むものをまったく言及していない。 @WasiAhmad – Jarvis
メールアドレスが 'hello @ example.ninja'の場合はどうなりますか?または 'hello @ example.nl'?または 'hello.there @ example.com'ですか?あるいは 'hello + there @ example.com'ですか? – Carpetsmoker