2009-10-25 12 views
19

私はLaTeXからPDFを作る方法を知っています。前に作成したPDFからLaTeXコードを抽出する方法はありますか?どうか誰かが私にPDFを送って、書式が好きなのですか?そこからLaTeXを抽出できますか?LaTeXにPDFを回復

+1

http://tex.stackexchange.com/questions/8503/how-to-convert-pdf-to-latex –

答えて

12

LaTeXにはPDFへの1対1変換はありません。あなたの最初の質問に関しては、私はそのような変換が技術的に可能かもしれないと信じていますが、私はそれがまだ存在するとは信じていません。アセンブラを高水準言語に逆コンパイルする方法と同様に、おそらくそれを行う方法があります。ただし、PDFには、AutoCAD図面、JPEGグラフィックス、フォントファイル、フォーム、デジタル署名など、すべての種類のデータを含めることができます.LaTeXはこれらのものが何であるか分かりません。したがって、2番目の質問に答えて、いいえ、PDF文書から同等のLaTeXを抽出する方法はありません。

4

ショートバージョン:いいえ。

ロングバージョン:あなたが技術的に可能性が、それは推測やヒューリスティックの多くを伴うだろう:それはたくさんの逆コンパイルするようなものです。

私はPDF内臓に慣れていませんが、フォーマットを定義してLaTeXのようにヘッダなどに適用するのではなく、フォント/サイズ/位置を直接設定することがあります。

6

文書のソースをPDFファイルに埋め込む場合にのみ可能です。これを行うには、attachfileパッケージを参照してください。

+0

タグ付けされたPDFを使用して手がかり付与メタデータを追加することもできます。 –

+0

はい、それは本当ですが、LaTeXソースをこのルート経由でPDFに変換する既存の方法を認識していません。助言がありますか? –

+1

申し訳ありませんが、あなたの質問は最近まで表示されませんでした。 Ross Moore氏は、数学がそれらを生成するTexコードでタグ付けされているPDFの生成を可能にするpdftex追加を示しました。これは完全な答えからの長い道のりですが、*可能であることを示していると思います。私はこれについて、コメントにフィットするよりももっと言いたいことがあります - 私はそれが素晴らしい修士論文を作ることができると言います。 –

1

関連する質問に私の答えを参照してください(how to turn a DVI to tex?

を増幅するために - sdrawkcabのsdaerのtxetの一部は(と)座標に依存している読み順になるように文字のための必要はありません(私が発見したPDFファイル。つまり、フォントメトリックスに依存することができますとして再構築することは非常に困難である。ぞっとASCII86プロトコルを使用できる。

-1

それはpdfファイルのインポートを含む、texmacsで動作する可能性があります。

+0

texmacsはこの問題を解決しようとしたことのない放棄ソフトウェアです。 –

+0

まだ、私はすでにそれをしています。 – Aif

+0

詳細を教えてください!私は数年前に革命を必要としなかった問題に対する徹底的なアプローチとしてtexmacsを書きました。あなたは別の見方をしていると思いますか? –

1

データのための最善の方法pdfファイルからのマイニング(複雑な形式のため)それらはAdobe Illustratorを使用しています。 次に、pdfファイルをsvgファイルに変換し、svgパーサライブラリを使用して、あなた自身に厄介なコードを書いてください。私がしてきた

PS :

一つの効率的なSVGパーサlibにはbatik

です( calcmaster.net/personal_projects/pdf2svg/ Linuxの場合、それはSVGにPDFを変換するためのかなりの複雑です)あなたの質問の2番目の部分の解決策を見つけようと多くの努力をしていますが、私はそのような「データの可視化、Ben Fry、O'Reilly」のような書籍でわかっています pdf特にAdobe pdfは、 svg parser libを使用してください。

+0

OPはLinux上でソリューションを求めました... –

1

InkscapeはPDFをインポートし、LaTeXソースにPostScriptを埋め込むことで本質的に機能する「LaTeX with Pstricks macros」として保存できます。それはその価値よりも面倒です。結果として得られるLatexソースは、PDFとして再度出力する前に前処理しなければなりません。

とにかく、仮説的なPDF to LaTeXコンパイラを使っていても、各文字や単語の位置とサイズが別々に指定されているものを得ることができます。分母が水平線よりも数分の一ではなく、分数の半分になるようにします。

3

pdftohtmlとgnuhtml2latexを使用して、PDFをHTMLに、HTMLをTEXに変換することは可能です。

実際には、PDFからLaTeXへの変換を2ステップで実行しています。結果は "ハンバーガーから牛を作る"のようなものですが、いくつかのクリーンアップスクリプトと組み合わされて、結果はきれいになります。

GlobalBlindSpotのブログ投稿 "Rudimentary PDF to LaTeX conversion in Linux"には、.pdfを.texファイルに変換し、その1つを.pdfファイルに再度変換するBashスクリプトの例があります。

8

OCRのようなPDFファイルを読み取り、ラテックスコードを再作成しようとするツールがあります。 これはほぼ完璧で、"Infty Reader"と呼ばれています! ラテックスはかなり拡張性があるので、私はそれがすべてのきちんとしたフォーマットが正しいとは思わない。

+1

InftyReaderはMS Windowsのみです。 –