PHP正規表現エンジンをテストすると、[0-9A-Za-z_]
のみが単語文字とみなされています。ヘブライ語などのASCII以外の言語の文字は、単語の文字として[\w]
と一致しません。任意の言語の文字と一致するPHPまたはPerlの正規表現のエスケープシーケンスはありますか?私は使用すると予想される各アルファベットの範囲を追加することができますが、ユーザーはいつも予想外の言語で私たちを驚かせるでしょう!任意の言語の単語文字用正規表現
これはセキュリティフィルタリングではなく、テキストをトークン化することに注意してください。
非常にいいです、ありがとうございます。私はそれを動作させるために 'u'修飾子を追加しなければなりませんでした。 – dotancohen