2017-02-06 2 views
1

azure MLにランダムフォレスト実験を展開して、そこに含まれている単語に基づいて文書をスコアリングしようとしています。文書はPDFの形式です。この実験をWebサービスとして展開すると、PDFを入力することができません。 PDFをWebサービスに入力する方法はありますか?ここでAzure機械学習でPDFをWebサービスの入力として受け取ることができません

答えて

0

は可能なアプローチのカップルです:

  • は、Webサービスを呼び出す前に、PDFのバイトデータをシリアル化。実験中のR/Pythonスクリプト実行モジュールで、データを逆シリアル化し、サードパーティのパッケージ(Pythonの場合はpickleやpdfminerなど)を使用してPDFからテキストを抽出します。
  • Webサービス入力としてPDFにURIを指定します。 R/Pythonスクリプト実行モジュールを使用して、そのURIからPDFファイルを取得し、サードパーティのパッケージ(例えば、urllib.requestsとPythonの場合はpdfminer)を使用してテキストを抽出します。
関連する問題