2016-07-28 4 views
-2

メールID、電話番号を抽出しました - 正規表現を使用して コアNLPサーバーを使用して名前を抽出しました セットを与えて単語を比較してスキルを抽出しました。 しかし、私はPythonを使って何年もの経験を抽出する方法を知りませんでした。 - 誰もそれについて考えてくださいできますか? 例:経験のpythonを使用して再開からエクスペリエンスを追加するには?

2年の経験、このよう

2010年から2014年

あなたがカップルを取ることができますので、多くの可能性

+0

最終的には、期待されるパターンの背後に論理を見つける必要があります。たとえば、周囲の文字列によって、または意図したパターンの形が制限されている場合、これらの構造を正規表現のように複数の方法で使用できます。 – Kasramvd

+0

@ Kasramvd 3リストされた方法はすべての方法をリストする代替方法ですが、「多くの」方法はないかもしれませんが、実際にはパターンのほとんどは、ほとんど最初の2つです –

+0

唯一の方法は正規表現または他のロジックを使用することができます –

答えて

1

があるの

二年アプローチのあなたが言うように、多くの可能性がある場合、これを機械学習の問題として扱い、アプローチ1を使用することができます。そうでなければ1、可能性が制限されている場合(例えば、約5)、2番目のアプローチを使用できます。

アプローチ1:

が機械学習の問題を検討してください。経験年が含まれているかどうかに応じて、テキストの各センテンスを0または1として分類します。これは、手動でいくつかのデータを訓練することによって行うことができます。各トレーニングの例に対して、ラベルを割り当てます。たとえば、次のように

仕事経験:2年間の勉強3年(ラベル1)

(ラベル0)年間、一生懸命働い

(ラベル0)経験の

二年(ラベル1)

経験:2010年から2014年(ラベル1)

あなたは例の多くを持っていたら、あなたはskicit-learnまたは類似のPAを使用することができますモデルを訓練するためのckage。

アプローチ2:年間の

の1-検索。正確な単語(yearまたはyears)または4桁の数字(たとえば、2014)のいずれかです。

2- 1が合格すると、近くの経験(またはそのようなもの)を検索します。

12の両方が合格すると、長年の経験があります。次に、あなたが望むものに応じて、さらに抽出することができます。

+0

はい、履歴書は日付範囲の周りの単語の経験を表示できますが、私はその質問が入力データの特定の形式を必要としない方法を求めていると思います。いずれにしても、特定の仕事で日付範囲を列挙することは、長年の経験を示す有効な方法です。 –

+0

私の答えで実証したように、すべての可能性があります。とにかく、もう1つのアプローチは機械学習を使用することです。これは私の答えで追加したものです。 – Learner

+0

私は機械学習の初心者であるので、アプローチ1に関する説明を教えてください。 –

関連する問題