2016-03-21 9 views
0

GATEがUTF-8エンコードされたプレーンテキストファイルからタイプ "p"の注釈を抽出できるかどうかを確認しようとしています。タイプ "p"プレーンテキストファイルでの注釈

HTMLファイルとPDFファイルはうまく機能し、これら2つのファイルタイプを分析するときに「p」アノテーションが追加されます。

私は別のPRを使ってみましたが、オリジナルのマークアップでタイプ "p"アノテーションを取得できないようです。

プレーンテキストファイルでこれを実現する方法はありますか?

答えて

0

"p"アノテーションを元のマークアップからデフォルトセットに移動するAnnotation Set Transfer PRを使用するべきだと思います。その後、あなたの要件に応じてそれらを使用することができます。

+0

GATEがテキストファイルを分析するとき、元のマークアップから "p"タイプの注釈が得られないので、これは不可能だと思います。 –

+0

元のマークアップは絶対に空ですか?私は少なくとも1つはプレーンテキストのためにそこになければならないと思う。 GATEには、新しい行のいくつかの規則に基づいて段落を見つけようとするコードがあります(私がr \ nなどに基づいて覚えている限り)。オプションとして、段落の検出のために独自のJAPEルールを記述することができます。 – ashingel