text-mining

    1

    2答えて

    私はRapidminerを使用しており、一連のプロセスを作成して、一連の標準的なタスクを実行しています。さて、私は、ユーザが最初にプロセスのパラメータを動的に設定できるようにします。 たとえば、CSVを書き込むときに、プロンプトを使用して保存する場所を含む文字列を入力するように求めます(スクリプトの開始時または処理中の他の段階で。 はRapidminerを介して可能これは、あるいは私が発生し、彼は

    3

    2答えて

    私はNLP(自然言語処理)の新しい参加者です。私は、言い換えプロジェクトを開始するにあたり、2つの類似した文を認識できるシステムを開発しています。レキシカル、シンタックス、セマンティックの3つのレベルで様々な尺度を適用しようとしています。語彙レベルでは、コサイン類似度、マッチング係数、ジャカード係数...などの複数の類似度があります。シェフィールド大学によって開発されたsimMetricsパッケー

    12

    10答えて

    特定のものをクロールしたい。特に、コンサート、映画、アートギャラリーのオープニングなどのようなイベントがあります。誰かが時間を費やすかもしれないもの。 クローラを実装するにはどうすればよいですか? 私はグラブの聞いたことがある(grub.org - >ウィキア)とHeritix(http://crawler.archive.org/) があり、他はありますか? どのような意見がありますか? -Ja

    0

    1答えて

    OpenNLP(Java)は、 "2010年1月10日"または "2010年1月10日"の形式の日付を特定できません。 OpenNLPトークナイザを使用する前に、すべての '、'を空文字列に置き換え、 "2010年1月10日"という形式の日付でうまく動作します。 "だから、私は "th"を "、"と置き換えようとしましたが、うまくいきませんでした。上記のフォームの日付がOpenNLPで特定されてい

    5

    2答えて

    python用のパッケージ/ライブラリがあり、PDFを開いて特定の単語を検索することはできますか?

    1

    1答えて

    4年以上のコミュニケーションを含む大規模な個人用の.pstファイルのセットでテキストマイニングを行うことを検討しています。 最初は、ソーシャルネットワークを特定するヘッダー情報を抽出するだけですが、キーワードに基づいて電子メールを分類したり、さらに分析をサポートする構造化出力を作成したりしたいと考えています。 どこから始めればよいですか?

    1

    1答えて

    私はキーワードで文書にタグを付ける必要があるプロジェクトに取り組み始めました。手動で行うと(特に何千もの文書がある場合)、それは本当に難しく時間がかかります。だから、私はプロセスを自動化する予定です(結果が完璧ではないことは知っていますが、少なくともタグを提案しています)。 最新のFirefoxバージョンでは、このようなシステムを実装しました(ページをブックマークすると、タグがいくつか示唆されます