2012-01-02 6 views
0

いくつかのエンコーディングの問題で生成されたドイツ語のテキストのデータセットが大量にあり、データセットをゼロから再作成できません。だから、ドイツの特殊文字を文字列 "??"にする必要がある場合、 (私はこれがUTF8をAsciiやそのような行に沿って扱うことから来たと思います)。C#1つ以上の一致を含む単語を検索する正規表現

データセットは、約180,000行の一連のCSVファイル形式です。私の解決策は、 "??"を含むすべてのユニークな単語を識別することです。基本的に文字列置換を行います。幸いにも、置き換えるユニークな言葉はそれほど多くありません(データセットの約5%のサンプルから18語)。

"??"のインスタンスを1つだけ含む単語に一致する正規表現を取得できました。 - 問題は、 "??"のインスタンスが複数含まれている単語を分割することです。 2つの部分一致に変換する。

この段階で私は正規表現の知識の限界に達しています。私はこれに先を進める必要があると思いますが、どうやってそれをどうやって行くのか分かりません。

私の正規表現は"@"(?<TM>\w*\?\?\w*)"です。 は、ここに例の文字列は、(第2の単語が2試合に分割されます注意です:"hellgr??n Hei??folienflachpr??gung Folienpr??gung,"

答えて

2
(?<TM>\w*(\?\?\w*)+) 

を繰り返し、少なくとも一度??を含む一部

+0

パーフェクト私の心はまだ回復していない表示されます。新年から、私はそれを理解することができていたはずです...ありがとうオリビエ。 –

関連する問題