2016-05-22 8 views
0

pdflibは、PDFを分析する優れたソフトウェアです。私はそれを使用してPDFからテキストを抽出します。どのように文章でテキストセンテンスを抽出するのですか?今、私は単語、行、ページだけで抽出できます。 (;希望;へ;抽出...つまりI)、ラインモードの復帰1つのラインごとに(つまりIpdflibテキストセンテンスを文章で得るには?

I want to extract text from pdf 
Sentence by sentence. Is there 
anybody can help? 

ワードモード復帰一つの単語ごとに:たとえば、PDFに次の内容を与えますpdfからテキストを抽出したい;文で文を書いてください; anyboyが助けることができますか?)ページモードは段落全体を返します。私は何を取得したいことはその都度文である(つまり、私は文によってPDF文からテキストを抽出したい。誰が助けることができていますか?)

答えて

0

私はサポートを電子メールで送信し、以下その回答です:

こんにちは、

これはTETではできません。私はあなたがTET(PDFlibではない)を参照しているとします。 はテキスト抽出ツールキットです。

文章でコンテンツを取得するには、 が文末を特定してから後でその文字列を返す後処理を追加する必要があります。 たとえば、細かい単語を使用すると、すべての単語が繰り返し表示されます。 次に、単語が文章中になるまで、すべての単語を結合します。その後、 文字列を返します。 ただし、これはコードので行う必要があります。

関連する問題