2016-08-22 4 views
14

こんにちは先週、Facebookは、単語をバケットに分類する方法であるFasttextを発表しました。 Latent Dirichlet Allocationは、トピックモデリングを行うもう1つの方法です。私の質問は、誰もが、私はFasttextを試してみましたが、ここでファストテキストとLDAの比較

Proの私の経験に基づいて、LDAのためのいくつかの賛否あるしていないこれらの2

内の賛否について、任意の比較をしましたです

  1. 反復モデル、Apache sparkをサポートする

  2. トピックのコーディングを行い、トピックモデリングを行います。

  3. は、文書が話しているかを発見するだけでなく、Apacheのスパークコミュニティが継続的にこれに貢献している

  4. 関連文書を探し出すだけでなく。以前、彼らはそれがmlのライブラリになりましmllibに

    1. ストップワードがうまく定義する必要が

    コンを働かせました。それらは文書の文脈に関連していなければならない。例:「ドキュメント」は出現頻度が高く、推奨トピックのチャートの上位に表示される可能性がありますが、関連性がない可能性があるため、ストップワードを更新する必要があります。

  5. 無関係。

    1. 期間:規律

    2. 期間:規律

    3. 期間:以下の例では、このバケットを約

    トピックを話しているものを推測するのは難しいですnotestable

  6. 期間:

  7. 期間:経路

  8. 期間:chapterclosingtable

  9. 期間:メタプログラミング

  10. 期間:ブレークスルー

  11. 期間:区別

  12. 期間:レスキュー

誰でもFasttextで研究を行っている場合は、学習して更新できますか?

答えて

3

fastTextはトピックモデリング以上の機能を提供し、浅いニューラルネットワークを使用した単語埋め込みやテキスト分類の生成ツールです。 著者のパフォーマンスは、はるかに複雑な「深い学習」アルゴリズムに匹敵しますが、トレーニング時間は大幅に短縮されています。

長所:

=>ちょうど、使用するアーキテクチャをご入力および出力ファイルを提供し、それがすべてです、あなた自身のfastTextモデルを訓練するために

$ ./fasttext skipgram -input data.txt -output model

非常に簡単ですモデルを少しカスタマイズしたい場合は、fastTextもハイパーパラメータを変更するオプションを提供します。

=>単語ベクトルを生成する際に、fastTextは文字nグラムと呼ばれる単語のサブ部分を考慮して、類似した単語が異なるコンテキストで発生しても同様のベクトルを持つようにします。例えば、「監督」、「監督」、および「監督者」にはすべて同様のベクトルが割り当てられます。

=>以前に訓練されたモデルを使用して、語彙外単語の単語ベクトルを計算することができます。これは私のお気に入りです。あなたのコーパスのボキャブラリーが有限であっても、あなたは世界に存在するほとんどすべての単語のベクトルを得ることができます。

=> fastTextには、段落や文のベクトルを生成するオプションも用意されています。類似の文書は、文書のベクトルを比較することによって見出すことができる。

=>テキストの可能性のあるラベルを予測するオプションも含まれています。

=> Wikipediaで訓練された約90言語の事前に訓練された単語ベクトルは、公式レポで入手できます。

短所:

=> fastTextは、コマンドラインベースであるため、私は私のプロジェクトにこれを取り入れながら、これはしかし他の人に問題ではないかもしれない苦労。

=>類似の単語や段落を見つけるための組み込みの方法はありません。ここで多くを読みたい方のため

は、公式の研究論文へのリンクです:

1)https://arxiv.org/pdf/1607.04606.pdf

2)https://arxiv.org/pdf/1607.01759.pdf

公式レポへのリンク:

https://github.com/facebookresearch/fastText

関連する問題