私は以下の作業をしています:スペルチェック辞書(単純なtxtファイル)を埋めるために私はパーサー が必要です: - テキストファイル(または別の種類の文書)内で解析し、各単語 を抽出し、このような単語のリスト:あなたは何を示唆しているスクリプト言語とライブラリ adfadf adfasdfa adfasfdasdf adsfadf ... など ?可能であれば、コード例を挙げてください(特に各単語を抽出する場合)。ありがとう!テキストファイル(または他のドキュメント)のパーサーを作成するには?
答えて
あなたが望むのはパーサではなく、トークナイザだけです。これは、正規表現の束を持つ任意の言語で行うことができますが、私はNLTKでのPythonをお勧めします:
>>> from nltk.tokenize import word_tokenize
>>> word_tokenize('Hello, world!')
['Hello', ',', 'world', '!']
を一般的に、ただのNLPツールキットについてトークナイザが含まれますので、車輪の再発明する必要はありません。トークン化は困難ではありませんが、省略語、頭字語などのすべての例外を処理するためのヒューリスティックスをたくさん書いていきます。
ありがとう!私はそのようにしてくれるでしょう – user939536
@ user939536:あなたの問題を解決するなら、この答えの隣にあるチェックマークを忘れないようにしてください。 –
大丈夫、本当に助けになりました!私のaquaintantsは、このスクリプトを作成しています、ありがとう! – user939536
- 1. swaggerまたは他のツールを使用してRest APIドキュメントを生成する
- 2. サーブレットにテキストファイルを作成または書き込む方法は?
- 3. パーサー(lex/yacc)の作成方法は?
- 4. xcodeでのtxtドキュメントのパーサー
- 5. ドキュメントまたはノードからInputStreamを作成する方法
- 6. 単語またはpdfドキュメントからレポートを作成する
- 7. iPhoneのアプリのテンポラリディレクトリにテキストファイルを作成するには
- 8. Googleドキュメント:ポートレート文書に1つまたは複数のランドスケープページを作成する
- 9. 他のユーザーが作成したクリアケースを削除するには?
- 10. gitweb(または他のgit web-interface)でサブグループページを作成するには?
- 11. PHP:PDFドキュメントを生成する。テンプレートを作成するには?
- 12. Ruby(Rails以外)でOAuthプロバイダを作成するためのチュートリアルまたはドキュメント
- 13. SVG(または他の画像)の上にキャンバスを作成する
- 14. /var/mobile/jailbroken iOSデバイスのドキュメントにフォルダを作成するには?
- 15. は、オブジェクトを作成するには、テキストファイルを解析
- 16. Apache SparkでテキストファイルのHDFSを作成するには?
- 17. Pythonで偽のテキストファイルを作成するには
- 18. SAX xmlパーサーまたはDOMパーサー?
- 19. テキストファイルを作成する
- 20. Javaは、テキストファイルのエントリを持つComboBoxを作成します
- 21. Xcodeでインスタンス変数とメソッドのドキュメントを作成するには?
- 22. Rubyカスタムオブジェクトのドキュメントから範囲を作成するには?
- 23. JythonプロジェクトでSphinxベースのドキュメントを作成するには?
- 24. ApacheのpoiでHWPFドキュメントを作成するには
- 25. アンドロイドのsdカードに保存されたテキストファイルからsqliteデータベースまたはテーブルを作成する方法は?
- 26. メモリにドキュメントを作成しますか?
- 27. カスタムスプロケットプロセッサの作成に関するドキュメント?
- 28. ネストされたドキュメントを作成、更新、または追加する方法
- 29. ANT(または他のビルドシステムが好きな場合)を使ってPDF LaTeXドキュメントを作成するにはどうしたらいいですか?
- 30. テキストファイルに基づいてExcelでテーブルを作成するには?
あなたの単語のシーケンスを渡すことができるトークン辞書にオンラインで多くのオープンソースプロジェクトがあります。ここではJavaのアルゴリズムを見つけることができます:http://introcs.cs.princeton.edu/java/72regular/Tokenizer.java.html –