タイプ "p"プレーンテキストファイルでの注釈

GATEがUTF-8エンコードされたプレーンテキストファイルからタイプ "p"の注釈を抽出できるかどうかを確認しようとしています。タイプ "p"プレーンテキストファイルでの注釈

HTMLファイルとPDFファイルはうまく機能し、これら2つのファイルタイプを分析するときに「p」アノテーションが追加されます。

私は別のPRを使ってみましたが、オリジナルのマークアップでタイプ "p"アノテーションを取得できないようです。

プレーンテキストファイルでこれを実現する方法はありますか？

出典

2016-03-21 Harry Wells

"p"アノテーションを元のマークアップからデフォルトセットに移動するAnnotation Set Transfer PRを使用するべきだと思います。その後、あなたの要件に応じてそれらを使用することができます。

出典

2016-03-22 12:25:57 ashingel

GATEがテキストファイルを分析するとき、元のマークアップから "p"タイプの注釈が得られないので、これは不可能だと思います。 –

元のマークアップは絶対に空ですか？私は少なくとも1つはプレーンテキストのためにそこになければならないと思う。 GATEには、新しい行のいくつかの規則に基づいて段落を見つけようとするコードがあります（私がr \ nなどに基づいて覚えている限り）。オプションとして、段落の検出のために独自のJAPEルールを記述することができます。 – ashingel

タイプ "p"プレーンテキストファイルでの注釈

答えて

関連する問題