0
GATEがUTF-8エンコードされたプレーンテキストファイルからタイプ "p"の注釈を抽出できるかどうかを確認しようとしています。タイプ "p"プレーンテキストファイルでの注釈
HTMLファイルとPDFファイルはうまく機能し、これら2つのファイルタイプを分析するときに「p」アノテーションが追加されます。
私は別のPRを使ってみましたが、オリジナルのマークアップでタイプ "p"アノテーションを取得できないようです。
プレーンテキストファイルでこれを実現する方法はありますか?
GATEがテキストファイルを分析するとき、元のマークアップから "p"タイプの注釈が得られないので、これは不可能だと思います。 –
元のマークアップは絶対に空ですか?私は少なくとも1つはプレーンテキストのためにそこになければならないと思う。 GATEには、新しい行のいくつかの規則に基づいて段落を見つけようとするコードがあります(私がr \ nなどに基づいて覚えている限り)。オプションとして、段落の検出のために独自のJAPEルールを記述することができます。 – ashingel