2016-08-07 12 views
0

httpとhttpsを含むテキストがあります。 私はURLを取得しようとしました..それはhttpだけでうまく動作します。正規表現のURLパターン、http:https in R

url_regex < - "のhttp [^([:空白:] | \\" | < | & |#1 \ n個の\ rを)] +」私は以下のようにしようとした

、それを動作しません

url_regex < - "(HTTP | HTTPS)[^([:空白:] | \\" | < | & |#1 \ n個の\ rを)]。+」

httpまたはhttpsで始まるURLを取得するには、どこで変更する必要がありますか?

P.S. - 私は他の言語で動作する正規表現で試しました。 Rはregexのバージョンをどのように使用しましたか?

答えて

1

問題は、正規表現の途中に引用符があるため、先頭にある引用符を閉じることができません。どちらの正規表現は、最初と最後に単一のマークで定義されている必要があり、それが仕事とあなたが正規表現の内部で引用符を使用することができます:

url_regex <- '(http|https)[^([:blank:]|\\"|<|&|#\n\r)]+' 
0

チェックアウトこのpost。考慮する他の拡張機能がある場合は、rexパッケージを使用して簡単に修正できる正規表現を作成します。よく文書化されています。