私は以下のようなベクトルを持ち、リスト内のどの要素が人間の名前であるかを判断したいと思います。私は、名前をフォーマットするhumaniformatパッケージを見つけましたが、残念ながら文字列が実際に名前であるかどうかは判断しません。エンティティ抽出用のパッケージもいくつか見つかりましたが、単一の名前ではなく、品詞タグ付けに実際のテキストが必要なようです。文字列のリストから、人間の名前であるかどうかを確認します。
例
pkd.names.quotes <- c("Mr. Rick Deckard", # Name
"Do Androids Dream of Electric Sheep", # Not a name
"Roy Batty", # Name
"How much is an electric ostrich?", # Not a name
"My schedule for today lists a six-hour self-accusatory depression.", # Not a name
"Upon him the contempt of three planets descended.", # Not a name
"J.F. Sebastian", # Name
"Harry Bryant", # Name
"goat class", # Not a name
"Holden, Dave", # Name
"Leon Kowalski", # Name
"Dr. Eldon Tyrell") # Name
私の友人エレクトリックオーストリッチは、彼の名前が本当に名前ではないことを知っているとひどく頭が痛いです。だから正確に何が名前を決定するのかを知る必要があります。しかし、今日、人々は(アメリカでは)とにかく何かについて子供たちの名前をつけています。たとえば、Kanye Westの子供を連れてください。彼の名前はノースウェストです。確かに、カニエは馬鹿ですが、これはまだ当てはまります。どのように名前のテストに合格しますか? –
ハハ、十分に公正。私はカニエの子供の名前が間違っていると思います。しかし、それでも問題はありません。私は単に文字列の長さ、スペースの数、および大文字の使用に頼るよりもうまくやりたいと思っています。 –
スタンフォードの名前付きエンティティ認識「モジュール」はRで利用可能です。https://rpubs.com/lmullen/nlp-chapterにはNLPイントロがあります。このhttp://nlp.stanford.edu/software/CRF-NER.shtmlはjava libの公式ソースであり、そこから解決策を作ることは可能かもしれません。 – hrbrmstr