こんにちは先週、Facebookは、単語をバケットに分類する方法であるFasttextを発表しました。 Latent Dirichlet Allocationは、トピックモデリングを行うもう1つの方法です。私の質問は、誰もが、私はFasttextを試してみましたが、ここでファストテキストとLDAの比較
Proの私の経験に基づいて、LDAのためのいくつかの賛否あるしていないこれらの2
内の賛否について、任意の比較をしましたです
反復モデル、Apache sparkをサポートする
トピックのコーディングを行い、トピックモデリングを行います。
は、文書が話しているかを発見するだけでなく、Apacheのスパークコミュニティが継続的にこれに貢献している
関連文書を探し出すだけでなく。以前、彼らはそれがmlのライブラリになりましmllibに
ストップワードがうまく定義する必要が
コンを働かせました。それらは文書の文脈に関連していなければならない。例:「ドキュメント」は出現頻度が高く、推奨トピックのチャートの上位に表示される可能性がありますが、関連性がない可能性があるため、ストップワードを更新する必要があります。
無関係。
期間:規律
期間:規律
期間:以下の例では、このバケットを約
トピックを話しているものを推測するのは難しいですnotestable
期間:
期間:経路
期間:chapterclosingtable
期間:メタプログラミング
期間:ブレークスルー
期間:区別
期間:レスキュー
誰でもFasttextで研究を行っている場合は、学習して更新できますか?