2017-03-07 1 views
0

オンラインツールを使用してクライアントのWebサイトをクロールし、そこに存在するページ/ URLのリストを提供しています。WebクローラからURLを除外する正規表現

は、ページを除外するためのオプションがあり、そしてそれは私が(ニュースページ自体から離れて)ニュースセクションのすべてを無視したい\?.*page=.*$

の正規表現の例を示します

そうだろう私は次のように行く?

\?.*news/.*$

答えて

0

私が正しくあなたを理解していれば、あなたはnews/fooまたはnews/foo/barではなくnews/にマッチする正規表現を探しています。

あなたはそのために、この正規表現を使用することができます:.*news/.+

.*文字列は、0以上の文字(列)で始まる

news/文字列は(ニュース/

.+文字列が1つの以上の文字で終わる含みs)

http://regexr.com/3ffj1