2017-07-20 5 views
0

私はStanford NERを見ていて、単語の表現方法を知りたいと思っています。彼らは、線形CRFを使用してモデルを訓練するときに、Word2VecまたはGloveを使用してベクトルに変換されますか?Stanford NERで単語をどのようにベクトルに変換するのですか

さらに詳しい研究では、データがCRFDatum構造に格納されていることがわかります。誰もこれを詳しく教えてもらえますか?

答えて

1

まあ、今私は、ニューラルネットワークが離陸する前に、統計的なMLは、ディスクリート出力を変換し、昔の

戻る(NERシステムが構築された場合も含む)...古い学校AIの人々がどのように感じているか知っています特注のフィーチャライザーを使用してベクトルに変換します。言語の場合、これは通常、非常に長くてもスパースなワンホット機能のベクトルとなりました。例えば、フィーチャライタは、各単語に1ホット表現を割り当てることができる。すなわち、その単語に対応するインデックスでは1、それ以外ではゼロである。 NERの場合、これらの機能は通常、単語の文字(ワンホットエンコード)、長さ$ k $の接頭辞と接尾辞、単語の形、品詞タグなどのようなものでした。

スタンフォードのコードでは、これらのスパースベクトルは通常オプティマイザに供給され、より密集DatasetオブジェクトにDatumオブジェクトに渡され、変換され得る一つの形態または別のCounterオブジェクトとして表される(通常、QNMinimizer、L-BFGSを実施)。

+0

これは非常に便利です。あなたが私にこれ以上の勉強の指針を与えることができれば幸いです。視覚的表現やいくつかの情報源へのリンクのように。 – Gayatri

+0

NLP教科書は、https://web.stanford.edu/~jurafsky/slp3/から始めるのに適しています。品詞タグ付けの章は、NERと非常によく似ています。 –

関連する問題