text-mining

0熱

1答えて

tmパッケージ内のDocumentTermMatrixがすべての単語を返しません

私はRでtm-packageを使って文書用語行列を作成していますが、コーパス内の単語のいくつかはプロセスのどこかで失われてしまいます。例について説明します。のは、私は、TM-パッケージからDocumentTermMatrix()を使用する場合、私はこの小さなコーパス library(tm) crps <- " more hours to my next class bout to go hom

0熱

1答えて

PDFからテキストファイルへの変換

1つのメインフォルダに3000個のサブフォルダがあり、それぞれに2個のpdfsが含まれています。次のコードを書いて、PDFをテキストファイルに変換しました。 * all.subfolders < - list.dirs（ "メインフォルダへのパス＃"、full.names = TRUE） sapply(all.subfolders[-1], function(x) { file <-list

1熱

1答えて

grepを使用してテキストにタグを付けてrに貼り付けます

私は2つのデータフレームを持っています。最初の1： keyword <- c("apple","peach","grape","berry","kiwi fruit") keyword <- data.frame(keyword) 秒1： sentence <- c("I like apple","I hate apple","grape is good") url <- c("url1"

2熱

2答えて

データフレームの列R

のテキストと最も高いランクの単語にマッチする、私は2つのデータフレーム、 DF1あります df1 <- c("A large bunch of purple grapes", "large green potato sack", "small red tomatoes", "yellow and black bananas") df1 <- data.frame(df1) DF2： Word

1熱

1答えて

既存のモデルに訓練データを追加する（ビンファイル）

OpenNLPを使用してnl-personTest.binファイルに余分な訓練データを追加しようとしています。私は、余分なトレーニングデータを追加するためにコードを実行すると、既存のデータを削除し、新しいデータのみを追加するという私の問題です。私は余分なトレーニングデータを置き換える代わりに追加することができますか？私は、誰でも任意のアイデアがこの問題を解決するための public clas

1熱

1答えて

OpenNLP find（）メソッド

現時点では、ドキュメント内で名前を検索しようとしています。イム名前を検索するには、次の方法を使用して： find(String[] tokens) 私はまた、以下に、この方法が見つかりました： find(String[] tokens,String[][] additionalContext) を私はこの方法で何を行うことができますし、どのように私はそれを使うのですか？ opennlp.too

-3熱

1答えて

非構造化データを使用したデータマイニングの実装方法

私は構造化されていないデータ（アプリケーションのスクリーンショット）と半構造化されたデータ（スクリーンダンプファイル）を持っています。私の目標は、アプリケーション上の不具合や問題（意味のあるデータ）を見つけることです。さて、私はこれらのデータマイニングを適用したい、それはテキストマイニングの一種ですか？このデータに技術的なデータマイニングを適用するにはどうすればよいですか？

1熱

1答えて

OpenNLPカテゴライザバージョン1.8

私はopenNLPのバージョン1.8でカテゴライザを構築しようとしていますが、下のコードでは私はNullPointerExceptionを得ています。私は間違って何をしていますか？ public class test { public static void main(String[] args) throws IOException { InputStr

0熱

1答えて

ウェブサービスとしてオレンジ色のソフトウェアを使用することは可能ですか

ウェブサービスとしてオレンジ色のソフトウェアを使用し、.NETフレームワークで使用することは可能ですか？私は可能なデータベースで私のウェブサイトでそれを使用したいですか？

1熱

1答えて

テキストと表を空白で入力してください/入力してください

textとtextをtablesからワード文書に書いています。 tablesは、paragraphsの右下に配置されています。今 Iterator<IBodyElement> iter = xdoc.getBodyElementsIterator(); while (iter.hasNext()) { IBodyElement elem = ite