私はあなたが文の区切り文字を持っていないので、あなたは次のように進むことができ、あなたを助けることができるアプローチを提案することができます
は構文上の本質を抽出するための構文分析を適用します。段落の
例:私は私が
を踏襲しているプロセスを好きではない、システムが生成されます好きなアプリケーション好き:PP VB DT NNを...
を私がすることをお勧めします構文分析を抽出するにはStanford Parserを使用してください。
PP:人称代名詞
VB:動詞
DT:決定部
NN:名詞
あなたは、文を分割するために使用することができます構文パターンを持っていることがわかります段落を文にする。
文の考えられる構文木のモデルを構築します。モデルを言うと、私は文の構文的なビルドを含むファイル/データベースを意味します。
例:
PP VB DT NN - >(I食べるリンゴ)
VB ADJ NN - >(新しいメソッドを作成する)
:次の行を含むことができるモデル あなたのモデルを構築するには、多くの文章を分析することができます(あなたの文章が大きくなるほど、あなたのシステムはより正確になります)。あなたは自分自身で構築したcorpusを使うことができます。
モデルをビルドしたら、プログラムの作成を開始できます。アルゴリズムのメインラインは次のようになります。
1-入力段落(入力またはファイルとして)を受け取ります。
2-段落の構文ツリーを生成するためにスタンフォードパーサーを適用します。
、3-以前に構築構文木(あなたの文章モデル - >あなたのパターン)と、段落の部分の比較に基づいて、あなたの段落を分割スタート
あなたはの一部のsimilarityを測定する必要があります。文章モデルの段落。
私はあなたに何をしたいかについてのアイデアやアプローチを提供しようとしました。
おそらくNLTK(Natural Language Toolkit)を使用する必要があります。
ありがとうございます。私はアプローチをしようとしています。私はどこかで取得したらコードとアップデートを投稿します。この時点で、私は構文木モデルに基づいて構文解析を使うようにNLTKを学習しています。 –
@MangalPandeyは、自然言語処理(Daniel JurafskyとJames H. Martinのスピーチと言語処理)を育てる素晴らしい本です。http://www.deepsky.com/~merovech/voynich/voynich_manchu_reference_materials/PDFs/jurafsky_martin.pdf。私はちょうどこの本を愛しています!これが役に立つ答えかもしれない、多分あなたはそれをaproveすることができます;) – ziMtyth