text-processing

    0

    1答えて

    私は、既存のマークアップライブラリをC#/ .NETクラスライブラリに移植するための趣味プロジェクトに取り組んでいます。 Markdownに慣れていれば、それは同様のコンセプトです。 初期の質問は、テキストのセクションに他の構文ルールで処理されないようにするための構文があり、これについていくつかアドバイスしたいと思います。 私には、これらのセクションを最初に検索し、何らかの意味のあるトークンで置き

    5

    1答えて

    テキストから単語をセグメント化する必要があります。ハイフンなしの単語はハイフンなしで書かれ、アポストロフィーワードはアポストロフィなしで書かれることがあります。同じ単語(例:色、色)、または単語間にスペースを入れて書かれた別のスペルの問題(例:最大、最大、空白、空白)も同様の問題があります。これらのバリアントを1つの表現としてグループ化し、それをセット/ハッシュマップまたは他の場所に挿入する必要が

    5

    3答えて

    大文字の名前のリストが提供されています。電子メールでの挨拶の目的のために、彼らには適切なケースにしてほしい。 PHPのucwordsを使用するだけで十分です。 それはそれほどではありませんなど、 「オハラ」、「マクドナルド」、「ファンデSloot」:しかし、私は、私のような一般的な例外を処理するために、いくつかの正規表現機能を必要と感じます私はすべての一般的な例外が何であるか分からないので、上の3

    1

    2答えて

    ための最良のアルゴリズムは、私が記事をたくさん読んで、それぞれが特定のアルゴリズムであることを研究文書で証明しているWordのセンス明確化 ための最良のアルゴリズムは何ですか何ですか最高ですが、これは非常に混乱しています。私はちょうど2つの実現1-Leskアルゴリズムを思い付く が廃止されて、彼(の経験)に基づいて、誰もが、精度をあきらめ、他の良いアルゴリズムを知っていれば、2-適応Leskは最高

    20

    3答えて

    天気に関する質問をするプログラムを作成したかったのです。私が見ていなければならないアルゴリズムとテクニックは何ですか? 例:今週のシカゴでは晴れですか? インテント =天気クエリの日付 =今週末、の位置 =シカゴを知りたいと思っていました。 ユーザーは、同じクエリを多くの形式で表現できます。 私はいくつかの制約付きフォームを解決し、どのように開始するかについてのアイデアを探したいと思います。ソリュ

    5

    1答えて

    ID,model、dateのファイルがあります。ファイルは10000_9999-99_10-01-2011.zip(10000はID、9999-99はmodel、もちろん10-01-2011はdate)のような形式です。 これらのファイルのdateを変更しますが、セッション間の間隔を同じIDに維持したいとします。たとえば、2つのセッションの日付が1/1/2011および2/1/2011で、最後のセッ

    1

    3答えて

    私は、Pythonで異なるエンコーディングを持つドキュメントの束から汎用ドキュメントインデクサを作成しようとしています。 utf-8で文字を失うことなく、すべてのドキュメント(utf-8、ISO8859-xx、windows-12xxでエンコードされている)を読むことができるかどうかを知りたいですか? 次のように読んだ部分がある: fin=codecs.open(doc_name, "r","ut

    1

    3答えて

    私は変数がいっぱいです。実際はgitログです。 gitログの各行には、IPADまたはMIPOのいずれかのid(JIRA id)があります。 私はGitの出力をフィルタリングすると、どちらか一方のみ これまでのところ、私はこれを持っているを示しています。 RAW_NOTES=`git log $LAST_REVISION..master --pretty=format:"%h %ar %s"` e

    3

    5答えて

    私は数日からのPythonの問題に直面しています。私は基本的なプログラミングスキルのないバイオインフォマティクスです。私は処理しなければならない巨大なテキストファイル(約25GB)を扱っています。 私はtxtファイルを1行につき4行ずつ読み込む必要があります。つまり、最初の4行を読み込んで処理してから、2行目の4行を読み込む必要があります。そうです。 明らかに私はメモリを過負荷にするので、私はre

    6

    1答えて

    用語の頻度(TF)と逆文書頻度(IDF)は、ストップワードの削除とステミングの影響を受けますか? ありがとうございます!