私は、特定の記事から関連するタグを抽出するためのJavaベースのツールを探しています。 私は基本的には、特定の記事が関連する主要な主題と用語が何であるかを特定するツールを必要とします。 ありがとうございます。記事から関連するキーワード/タグを抽出するためのJavaツール
2
A
答えて
1
HtmlUnitを使用すると、記事のHTMLを解析し、検索したいドキュメントの部分をクエリできます。次に、独自のデザインの単純なアルゴリズムを適用して、タグ/キーワードを決定することができます。
たとえば、split()
のように空白のテキストを入力し、各単語が何回出現するかをカウントします。 "and"、 "the"、 "if"などのようなものを無視して最も多く出現する単語がキーワードの候補になります。
3
チェック次のキーワード/トピック抽出ソフトウェア/ツール:
- Kea - キーワード抽出
- Tmt - スタンフォードトピック検出ツールキット(Excelとの統合、Scalaで書かれたスクリプトが)、それはサポートしています半自動トピック検出モード(ユーザーのフィードバック付き)
- maui
あなたがあなた自身のトピック検出システムを開発したい場合、あなたが作業LDAサンプルへLDA implementation in mallet(リンクで見てみる必要があり、マレットホームページの一つは、最新malletバージョンでは動作しません。 )。
関連する問題
- 1. 記事URLからテキストを引き出すためのWeb API?
- 2. ビットマップフォントイメージからグリフデータを抽出するツール
- 3. オーチャードCMS - 関連記事ウィジェット
- 4. ログファイルからJavaスタックトレースを抽出するツール
- 5. メインコンテンツ(最高のテキスト密度)を抽出するニュース記事からWebページ
- 6. Wikipedia記事の紹介部分をPythonで抽出する
- 7. 画像からカメラ関連情報を抽出する方法
- 8. 基本クラスを抽出するためのツール?
- 9. wikipedia記事のテキストとカテゴリの情報をhtmlページから抽出します。
- 10. Pythonでループ記事を連結する
- 11. Java:オーディオファイルからバイトを抽出する
- 12. テキストファイルからデータテーブルを抽出するJava
- 13. Javaキーストアからパスワードハッシュを抽出する
- 14. 関連記事特定のタグを除いたワードプレスループ
- 15. .tgzファイルからファイルを抽出する際の推奨事項
- 16. エッジ検出/画像認識に関する学習を始めるためのベスト記事
- 17. オーディオ信号からLTC SMPTEタイムコードを抽出するためのJavaクラス?
- 18. 関数から式を抽出するための正規表現?ここ
- 19. Javaで画像からカメラ関連情報を抽出するにはどうすればよいですか?
- 20. ClearcaseからSVNに移行するためのツールに関する推奨事項?
- 21. 関連記事をMySQL LIKEステートメントで見つける
- 22. ParadoxテーブルからSQL定義を抽出するツール
- 23. pdfから単語座標を抽出するライブラリ/ツール
- 24. タグリストによる関連記事の検索
- 25. バリデータからフィールドを抽出するための最良のアプローチ
- 26. ボイラーパイプを使用して英語以外の記事を抽出する
- 27. iframeからsrcを抽出するためのjqueryスクリプト
- 28. HTMLからテキストを抽出するためのsedコマンド
- 29. 複数のテキストファイルからテキストを抽出するためにsed
- 30. ウィキペディアからデータを抽出するためのPythonライブラリ?
ありがとうございますが、私はトークン化の部分に興味があります。私はステミングとそれがどのように機能するのかを知っています。しかし、私はすでに一般的なケースでそれを行うアルゴリズムを探しています。 – tomermes