2012-03-14 12 views
0

文からタグを削除することはできますか?ファイルをスキャンしてタグを検索して削除することで実現できますが、多くのタグが存在するため(一部のモデルでは30以上、一部には48〜50、基本的にはpenn treebank pos tags)、高速で甘い方法がありますより効率的な方法でタグを削除するには? 私はAPIをチェックしましたが、タグを削除する方法はありませんでした。POSタガーのタグを削除する

+0

例を挙げて説明してもらえますか? POSタグを使用したくない場合は、POSタガーを実行しないでください。 –

+0

タグャーを使用してファイルにタグを付けると、次に表示されるタグに基づいてファイルに特定の条件を適用したいとします各単語に。その後、変更されたファイルでは、明らかにタグが表示されることを望んでいないでしょうし、まったく役に立ちませんし、ユーザーが嫌になります。だから、私はタグを削除したいと思います。 私はこれを回避する方法を見つけました。私は上で説明したように簡単な方法ではなく、元の文書とタグ付き文書から各行を同時にスキャンしなければなりません。しかし、タグを削除する簡単な方法があるのは不思議だった。 :-) –

答えて

1

これには特別なものはありませんが、出力に単語とタグの両方が含まれているため、元のドキュメントを再度スキャンする必要があるかどうかはわかりません。空白になるまで、最後のtagSeparator文字( '/'など)から削除するだけでタグを削除できませんか?それとも、次にあなたが最初の列内の単語と2列目のタグを持つ2つの列の出力が得られます

-outputFormat tsv 

を使用する方が簡単かもしれないと行われたときに、あなただけの最初の列を保つことができます。

関連する問題