これは、一般的なUNIX系システム(Python、Perl、awk、標準UNIX utils {sort、uniq}など)で利用できるような高水準言語にすることができます。うまくいけば、2MBのテキストファイルのユニークな用語の合計数を報告するのに十分な速さです。平文ファイルのユニークな単語を大文字と小文字の区別なくカウントするにはどうすればよいですか?
これは、迅速なサニティチェックのためにのみ必要なので、よく改造する必要はありません。
case-insensitveを覚えておいてください。
大変ありがとうございます。
サイドノート:Pythonを使用する場合は、バージョン3専用のコードを使用しないでください。私が実行しているシステムは2.4.4しかありません。 Pythonの2.4で
を私は時々おびえ人々はPythonのパフォーマンスであるか疑問に思います。私はこれまで4GBのdicomイメージを取り込んでPNGに変換し、そのPNGをscipy配列に変換し、scipy配列に変換された解析済みのセグメンテーションファイルをディスクに保存したスクリプトを書いた。これは32GBの整数山。 10分以内で完了しました。 – bayer
あなたの質問は何ですか?自分で問題を解決しようとしましたか?はいの場合は、どのような問題に会いましたか?そうでない場合は、どうしてですか? – innaM
この問題を解決する必要がある場合、カウントは簡単です。それはすべてのトラブルが忍び寄るトークン化です。入力とは何ですか? –