2016-04-25 8 views
0

現在、私はプロジェクトで作業しており、MALLET APIのCsvIteratorを使用してInstanceListを作成しています。しかし、私は、MALLET Instanceオブジェクトのデータフィールドがどのようにフォーマットされているのかよく分かりません。私は、テキスト行から解析されたデータをファイルに書き込もうとしています。MALLETインスタンスオブジェクトのデータフィールドを理解できません

データフィールドは通常InstanceListのFeatureVectorオブジェクトですが、私はCsvIteratorが何を探しているのか分かりません。

ありがとうございました。

答えて

1

分類またはトピックモデリングの場合、入力ファイルの「データ」フィールドは改行文字の代わりにスペースを含む元のドキュメントのようになります。

「データ」フィールドが使用するパイプによって決まることをMalletがどのように理解しているか。これらのクラスは、文字列入力をFeatureVectorに変換するルールを定義します。

たとえば、Csv2Vectorsクラスで実装されているデフォルトの動作は、文字列を正規表現に基づいてトークンに分割し、各トークン文字列をデータアルファベットのフィーチャに変換します。ロケーションやストップワードの削除など、多くの一般的な変換のパイプオブジェクトがあります。

関連する問題