2017-02-24 4 views
-1

私はBanglaのMaltparserモデルを訓練しようとしています。私はConllu形式の小さなコーパスに注釈を付けました。しかし、それは私にnullポインタエラーを与える。だから私はUDのウェブサイトから収集したツリーバンクで試してみました。そして、それらのデータセットで動作します。私の質問は、私はUPOSTAGフィールドを注釈を付けているとXPOSTAGフィールドはUPOSTAGの単なるコピーである、トレーニングに関する問題Maltparserモデル

  1. iはXPOSTAGなしMaltparserモデルを訓練することができます。 XPOSTAGに注釈を付ける必要はありますか?これは私のtreebankとUD treebankの唯一の違いです

  2. 私は自動的にUPOSTAGをXPOSTAGに変換できますか?

REF:http://universaldependencies.org/format.html私は両方の私の銀行とUD銀行の例を与えているよりよく理解するために

私の例銀行は(言語バングラある)

(ミスや、いくつかの空のフィールドがあります)
1 Ajake _ NOUN NOUN _ 5 iobj _ _ 
2 rAtera _ NOUN NOUN _ 1 nmod _ _ 
3 AbahAoYA _ NOUN NOUN _ 5 nsubj _ _ 
4 kemana _ ADV ADV _ 5 advmod _ _ 
5 hate _ VERB VERB _ 0 root _ _ 
6 pAre _ AUX AUX _ 5 aux _ SpaceAfter=No 
7 ? _ _ _ _ _ _ _ _ 

1 Ajake _ NOUN NOUN _ 5 iobj _ _ 
2 bikAlera _ NOUN NOUN _ 1 nmod _ _ 
3 paribesha _ NOUN NOUN _ 5 nsubj _ _ 
4 kemana _ ADV ADV _ 5 advmod _ _ 
5 hate _ VERB VERB _ 0 root _ _ 
6 pAre _ AUX AUX _ 5 aux _ SpaceAfter=No 
7 ? _ _ _ _ _ _ _ _ 

UD銀行

1 From _ ADP IN _ 3 case _ _ 
2 the _ DET DT _ 3 det _ _ 
3 AP _ PROPN NNP _ 4 nmod _ _ 
4 comes _ VERB VBZ _ 0 root _ _ 
5 this _ DET DT _ 6 det _ _ 
6 story _ NOUN NN _ 4 nsubj _ _ 
7 : _ PUNCT : _ 4 punct _ _ 

1 President _ PROPN NNP _ 2 compound _ _ 
2 Bush _ PROPN NNP _ 5 nsubj _ _ 
3 on _ ADP IN _ 4 case _ _ 
4 Tuesday _ PROPN NNP _ 5 nmod _ _ 
5 nominated _ VERB VBD _ 0 root _ _ 
6 two _ NUM CD _ 7 nummod _ _ 
7 individuals _ NOUN NNS _ 5 dobj _ _ 
8 to _ PART TO _ 9 mark _ _ 
9 replace _ VERB VB _ 5 advcl _ _ 
10 retiring _ VERB VBG _ 11 amod _ _ 
11 jurists _ NOUN NNS _ 9 dobj _ _ 
12 on _ ADP IN _ 14 case _ _ 
13 federal _ ADJ JJ _ 14 amod _ _ 
14 courts _ NOUN NNS _ 11 nmod _ _ 
15 in _ ADP IN _ 18 case _ _ 
16 the _ DET DT _ 18 det _ _ 
17 Washington _ PROPN NNP _ 18 compound _ _ 
18 area _ NOUN NN _ 14 nmod _ _ 
19 . _ PUNCT . _ 5 punct _ _ 

答えて

0

私は最初の問題の解決策を見つけました。 XPOSTAGは必要ありません。UPOSTAGを複製するとトレーニングが可能になります。私の問題は、言葉や句読点がないということでした。 "質問では、空白のままにすることができます。これはposタグでなければならず、ルートに依存する必要があります。それは私の問題を解決しました。

2番目の質問の場合、答えはあいまいです。 UPOSTAGとXPOSTAGの間には、言語に依存するため、有効な1対1の関係はありません。 Penn Tree Bankタグを使用するテーブルはすべて動作します。しかし、精度のために後処理が必要になります。