text-processing

0熱

1答えて

私は、既存のマークアップライブラリをC＃/ .NETクラスライブラリに移植するための趣味プロジェクトに取り組んでいます。 Markdownに慣れていれば、それは同様のコンセプトです。初期の質問は、テキストのセクションに他の構文ルールで処理されないようにするための構文があり、これについていくつかアドバイスしたいと思います。私には、これらのセクションを最初に検索し、何らかの意味のあるトークンで置き

5熱

1答えて

単語をセグメント化し、ハイフンとアポストロフィの単語をテキストからグループ化する

テキストから単語をセグメント化する必要があります。ハイフンなしの単語はハイフンなしで書かれ、アポストロフィーワードはアポストロフィなしで書かれることがあります。同じ単語（例：色、色）、または単語間にスペースを入れて書かれた別のスペルの問題（例：最大、最大、空白、空白）も同様の問題があります。これらのバリアントを1つの表現としてグループ化し、それをセット/ハッシュマップまたは他の場所に挿入する必要が

5熱

3答えて

"O'Hara"、 "McDonald" "van der Sloot"などを扱う大文字の名前が適切なケースに変換された場合

大文字の名前のリストが提供されています。電子メールでの挨拶の目的のために、彼らには適切なケースにしてほしい。 PHPのucwordsを使用するだけで十分です。それはそれほどではありませんなど、「オハラ」、「マクドナルド」、「ファンデSloot」：しかし、私は、私のような一般的な例外を処理するために、いくつかの正規表現機能を必要と感じます私はすべての一般的な例外が何であるか分からないので、上の3

1熱

2答えて

ワードセンス明確化

ための最良のアルゴリズムは、私が記事をたくさん読んで、それぞれが特定のアルゴリズムであることを研究文書で証明しているWordのセンス明確化ための最良のアルゴリズムは何ですか何ですか最高ですが、これは非常に混乱しています。私はちょうど2つの実現1-Leskアルゴリズムを思い付くが廃止されて、彼（の経験）に基づいて、誰もが、精度をあきらめ、他の良いアルゴリズムを知っていれば、2-適応Leskは最高

20熱

3答えて

インテントとスロットを認識するためのNLPタスクの進行方法

天気に関する質問をするプログラムを作成したかったのです。私が見ていなければならないアルゴリズムとテクニックは何ですか？例：今週のシカゴでは晴れですか？インテント =天気クエリの日付 =今週末、の位置 =シカゴを知りたいと思っていました。ユーザーは、同じクエリを多くの形式で表現できます。私はいくつかの制約付きフォームを解決し、どのように開始するかについてのアイデアを探したいと思います。ソリュ

5熱

1答えて

テキストファイルの2行分を読み込んで一時変数として保存する方法

ID,model、dateのファイルがあります。ファイルは10000_9999-99_10-01-2011.zip（10000はID、9999-99はmodel、もちろん10-01-2011はdate）のような形式です。これらのファイルのdateを変更しますが、セッション間の間隔を同じIDに維持したいとします。たとえば、2つのセッションの日付が1/1/2011および2/1/2011で、最後のセッ

1熱

3答えて

UTF-8文字はISO8859-xxとwindows-12xxのすべてのエンコードをカバーしますか？

私は、Pythonで異なるエンコーディングを持つドキュメントの束から汎用ドキュメントインデクサを作成しようとしています。 utf-8で文字を失うことなく、すべてのドキュメント（utf-8、ISO8859-xx、windows-12xxでエンコードされている）を読むことができるかどうかを知りたいですか？次のように読んだ部分がある： fin=codecs.open(doc_name, "r","ut

1熱

3答えて

bash - grep？セド？変数からテキストの行を削除する

私は変数がいっぱいです。実際はgitログです。 gitログの各行には、IPADまたはMIPOのいずれかのid（JIRA id）があります。私はGitの出力をフィルタリングすると、どちらか一方のみこれまでのところ、私はこれを持っているを示しています。 RAW_NOTES=`git log $LAST_REVISION..master --pretty=format:"%h %ar %s"` e

3熱

5答えて

巨大なテキストファイルの行を4のグループで読む

私は数日からのPythonの問題に直面しています。私は基本的なプログラミングスキルのないバイオインフォマティクスです。私は処理しなければならない巨大なテキストファイル（約25GB）を扱っています。私はtxtファイルを1行につき4行ずつ読み込む必要があります。つまり、最初の4行を読み込んで処理してから、2行目の4行を読み込む必要があります。そうです。明らかに私はメモリを過負荷にするので、私はre

6熱

1答えて

ステムティングが周波数に与える影響？

用語の頻度（TF）と逆文書頻度（IDF）は、ストップワードの削除とステミングの影響を受けますか？ありがとうございます！