2009-10-21 20 views

答えて

38

チャンキングは、浅い解析とも呼ばれ、基本的に品詞や短いフレーズ(名詞句など)の識別です。 Part of speech taggingは、単語が名詞、動詞、形容詞などであるかどうかを示しますが、文中の文の構造については何の手がかりも与えません。単語の品詞だけではなく、より多くの情報を持つことが有用な場合もありますが、構文解析から得られる完全な解析ツリーは必要ありません。

チャンク化が望ましい場合の例は、Named Entity Recognitionです。

:あなたはバラク・オバマ大統領は、以下の文章であることを知りたいと思うので、NERでは、あなたの目標は、(常にではないが)名詞句になりがちという名前のエンティティを、見つけることですバラク・オバマ大統領は、保険会社と銀行を批判し、議会に対し、医療制度の改革と金融規制の見直しの動きを後押しするよう支持した。 (source

しかし、必ずしも彼が文の対象であるとは限りません。

チャンクは、例ベースの機械翻訳、自然言語の理解、音声生成などの他のタスクの前処理ステップとしてもかなり一般的に使用されています。

6

自然言語処理の「テキストチャンク」については、hereを参照してください(おそらくこのシリーズのすべての講義を一種の「NLP 101」としたいと思うかもしれません...):それは名詞グループの検索動詞グループを見つけて、いくつかのタイプの分割文 - >チャンクを完成させます。私が引用したURLの講義は詳細に入ります!

+0

別の城で答えますか?おそらく答えではなく、コメントにする必要があります。 –

0

単語を構文的に相関するフレーズ(チャンク)にグループ化します。注:IOBラベルは、チャンク境界を示すために使用できます。

関連する問題