私はニュース業界テキストフォーマットNITFの各記事のXMLファイルを含むNew York Times Annotated Corpusでいくつかの作業をするためにNLTKを使用しようとしています。NLTKのXMLCorpusReaderをマルチファイルコーパスで使用できますか?
私はそうのように問題なく、個々の文書を解析することができます
from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader('nltk_data/corpora/nytimes/1987/01/01', r'0000000.xml')
私も全体のコーパスで作業する必要があります。
reader = XMLCorpusReader('corpora/nytimes', r'.*')
をが、これは使用可能なリーダーオブジェクトを作成しません: 私はこれをやってみました。例えば
len(reader.words())
戻り
raise TypeError('Expected a single file identifier string')
TypeError: Expected a single file identifier string
は、どのように私はNLTKにこのコーパスを読んでいますか?
私はNLTKを初めて利用していますので、どんな助力もありがとうございます。
おかげワッフルパラドックス。それはとても役に立ちます。 – NAD