2017-02-22 19 views
2

AWSラムダのNLTKパッケージに問題が発生しました。しかし、私は問題がLambdaのパス設定が間違っていることに関連していると考えています。 NLTKは、モジュールインストールの一部ではなく、ローカルに保存されたデータライブラリを見つけるのに問題があります。ここで見つけることができるように記載されているソリューションの多くは、単純なパスのconfigsですが、私はこの問題は、ラムダにパス指定に関連すると思う:AWSラムダのパスとPython NLTK

How to config nltk data directory from code?

What to download in order to make nltk.tokenize.word_tokenize work?

これも以前に関係も言及する必要があります質問私はここ Using NLTK corpora with AWS Lambda functions in Python

掲示しかし問題は、より一般的なようですので、私はそれが正しく必要とするモジュールで動作するようにラムダでパス環境を設定する方法に関する場合、質問を再定義することを選択していますNLTKのような外部ライブラリ。 NLTKはそのデータをローカルにnltk_dataフォルダにたくさん保存しますが、このフォルダをラムダジップ内にアップロード用に含めても、それは見つからないようです。また、ラムダFUNC zipファイルに含ま

は、次のファイルとのdirsです:

\nltk_data\taggers\averaged_perceptron_tagger\averaged_perceptron_tagger.pickle 
\nltk_data\tokenizers\punkt\english.pickle 
\nltk_data\tokenizers\punkt\PY3\english.pickle 

次のサイトから、VAR /タスク/ラムダ関数が実行されるフォルダであるようだと私は持っていますこの道を無駄にしようとしました。また、私はPythonスクリプトで(窓から来て、ないのlinux)http://docs.aws.amazon.com/lambda/latest/dg/current-supported-versions.html

がそれらを含めるするかどうかはわかりませんが使用できる環境変数の数があるように思われるドキュメントからhttps://alestic.com/2014/11/aws-lambda-environment/

誰もがラムダパスを設定する経験を持っているここでこれをスローすることを望みます。私はこの

コードを解決するために有用である可能性が期待して、検索にもかかわらず、この特定の問題に関連する多くの質問を見ていないここにある

import nltk 
import pymysql.cursors 
import re 
import rds_config 
import logging 
from boto_conn import botoConn 
from warnings import filterwarnings 
from nltk import word_tokenize 

nltk.data.path.append("/nltk_data/tokenizers/punkt") 
nltk.data.path.append("/nltk_data/taggers/averaged_perceptron_tagger") 

logger = logging.getLogger() 

logger.setLevel(logging.INFO) 

rds_host = "nodexrd2.cw7jbiq3uokf.ap-southeast-2.rds.amazonaws.com" 
name = rds_config.db_username 
password = rds_config.db_password 
db_name = rds_config.db_name 

filterwarnings("ignore", category=pymysql.Warning) 


def parse(): 

    tknzr = word_tokenize 

    stopwords = ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your', 'yours', 'yourself','yourselves', 'he', 'him', 'his', 'himself', 'she', 'her', 'hers', 'herself', 'it', 'its', 'itself', 
       'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that','these','those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 
       'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of','at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 
       'below','to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then','once', 'here','there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 
       'some', 'such','no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', 'will','just', 'don', 'should','now', 'd', 'll', 'm', 'o', 're', 've', 'y', 'ain', 'aren', 'couldn', 'didn', 'doesn', 'hadn', 'hasn', 
       'haven', 'isn', 'ma','mightn', 'mustn', 'needn', 'shan', 'shouldn', 'wasn', 'weren', 'won', 'wouldn'] 

    s3file = botoConn(None, 1).getvalue() 
    db = pymysql.connect(rds_host, user=name, passwd=password, db=db_name, connect_timeout=5, charset='utf8mb4', cursorclass=pymysql.cursors.DictCursor) 
    lines = s3file.split('\n') 

    for line in lines: 

     tkn = tknzr(line) 
     tagged = nltk.pos_tag(tkn) 

     excl = ['the', 'and', 'of', 'at', 'what', 'to', 'it', 'a', 'of', 'i', 's', 't', 'is', 'I\'m', 'Im', 'U', 'RT', 'RTs', 'its'] # Arg 

     x = [i for i in tagged if i[0] not in stopwords] 
     x = [i for i in x if i[0] not in excl] 
     x = [i for i in x if len(i[0]) > 1] 
     x = [i for i in x if 'https' not in i[0]] 
     x = [i for i in x if i[1] == 'NNP' or i[1] == 'VB' or i[1] == 'NN'] 
     x = [(re.sub(r'[^A-Za-z0-9]+' + '()', r'', i[0])) for i in x] 
     sql_dat_a, sql_dat = [], [] 

出力ログはここにある:

********************************************************************** 
    Resource u'tokenizers/punkt/english.pickle' not found. Please 
    use the NLTK Downloader to obtain the resource: >>> 
    nltk.download() 
    Searched in: 
    - '/home/sbx_user1067/nltk_data' 
    - '/usr/share/nltk_data' 
    - '/usr/local/share/nltk_data' 
    - '/usr/lib/nltk_data' 
    - '/usr/local/lib/nltk_data' 
    - '/nltk_data/tokenizers/punkt' 
    - '/nltk_data/taggers/averaged_perceptron_tagger' 
    - u'' 
**********************************************************************: LookupError 
Traceback (most recent call last): 
    File "/var/task/Tweetscrape_Timer.py", line 27, in schedule 
    server() 
    File "/var/task/Tweetscrape_Timer.py", line 14, in server 
    parse() 
    File "/var/task/parse_to_SQL.py", line 91, in parse 
    tkn = tknzr(line) 
    File "/var/task/nltk/tokenize/__init__.py", line 109, in word_tokenize 
    return [token for sent in sent_tokenize(text, language) 
    File "/var/task/nltk/tokenize/__init__.py", line 93, in sent_tokenize 
    tokenizer = load('tokenizers/punkt/{0}.pickle'.format(language)) 
    File "/var/task/nltk/data.py", line 808, in load 
    opened_resource = _open(resource_url) 
    File "/var/task/nltk/data.py", line 926, in _open 
    return find(path_, path + ['']).open() 
    File "/var/task/nltk/data.py", line 648, in find 
    raise LookupError(resource_not_found) 
LookupError: 
********************************************************************** 
    Resource u'tokenizers/punkt/english.pickle' not found. Please 
    use the NLTK Downloader to obtain the resource: >>> 
    nltk.download() 
    Searched in: 
    - '/home/sbx_user1067/nltk_data' 
    - '/usr/share/nltk_data' 
    - '/usr/local/share/nltk_data' 
    - '/usr/lib/nltk_data' 
    - '/usr/local/lib/nltk_data' 
    - '/nltk_data/tokenizers/punkt' 
    - '/nltk_data/taggers/averaged_perceptron_tagger' 
    - u'' 
********************************************************************** 
+0

今これは=より良い質問です)あなたに – alvas

+0

質問、なぜあなたがWindowsとラムダのインスタンスを使用していますか?ラムダインスタンス用のLinuxサーバーを展開する方が簡単ではないでしょうか? – alvas

+0

ところで、amazonラムダはWindowsインスタンスを展開できますか? – alvas

答えて

2

私はこの質問に対する答えを見つけました。数日後に私はついにそれを理解しました。 nltkフォルダ内のdata.pyファイルは、次のように変更する必要があります。基本的に/ usr/...パスを削除して、Lambdaが/ var/task /から実行するフォルダを追加し、nltk_dataフォルダが実行zipのルートにあることを確認します。

理由はわかりませんが、インラインのnltk.data.path.append()メソッドを使用するのはAWS Lambdaでは機能しません。また、data.pyファイルを直接変更する必要があります。

少し遅れて、このパーティーに
else: 
    # Common locations on UNIX & OS X: 
    path += [ 
     str('/var/task/nltk_data') 
     #str('/usr/share/nltk_data'), 
     #str('/usr/local/share/nltk_data'), 
     #str('/usr/lib/nltk_data'), 
     #str('/usr/local/lib/nltk_data') 
    ] 
+1

これはきれいではありません: 'sys.path.append(os.path.abspath( '/ var/task/nltk_data /'))' –

4

あなたの現在のPythonコードが/var/taskから実行されているようです。私は試してみることをお勧めします(自分自身を試していない):

nltk.data.path.append("/var/task/nltk_data") 
+1

これは私のために働いた!これを解決しようとする人は、nltkをインポートして、nltk_data /ディレクトリのプロジェクトにnltkコーパスをダウンロードする必要があります。 – Brooks

0

、しかし、あなたが貼り付けスニペットちょうどその上を見れば、NLTKライブラリ(v.3.2.2)は、あなたのことをパスアレイに独自のカスタムパスを追加することができますが検索されます。

# User-specified locations: 
_paths_from_env = os.environ.get('NLTK_DATA', str('')).split(os.pathsep) 
path += [d for d in _paths_from_env if d] 

だから、今ラムダは、あなたがあなた自身の環境変数を追加することができますことを、あなたはあなたの関数を展開し、それが動作するはず際/var/task/nltk_dataにNLTK_DATA環境変数を設定することができます。私はラムダでそれをテストしていない。

あなたがこの質問を投稿したときにLambdaが環境変数を許可しているかどうかはわかりませんが、今すぐ実行できるはずです。私はラムダに展開していますいくつかのPythonアプリでこれを再訪

EDIT 1 は、私は上記のマットが提供するソリューションを使用し、それが私のために働きました。

nltk.data.path.append("/var/task/nltk_data")

NLTKコーパスを必要とする任意の関数を呼び出す前に、あなたは

import nltk

に覚えておく必要がありますまた、コーパスは、上記につき(プロジェクトにダウンロードしてインストールする必要があります.appendメソッド)をnltk_dataサブディレクトリに追加します。

AWS Codebuild内virtualenvのを使用している場合、buildspec.ymlスニペットは、次のようになります。

pre_build: 
    commands: 
    ... 
    - export HOME_DIR=`pwd` 
    - mkdir $HOME_DIR/nltk_data/ 
    - export NLTK_DATA=$HOME_DIR/nltk_data 
    - $VIRTUAL_ENV/bin/python2.7 -m nltk.downloader -d $NLTK_DATA punkt 
    ...