Rを使用したPDFのスクレイピング

私はXMLパッケージをHTMLテーブルの抽出に使用していますが、PDFに拡張したいと思っています。以前の質問から、単純なRソリューションがあるとは思われませんでしたが、最近の開発があったかどうかは疑問でした

それに失敗すると、(私が完全な初心者です)Pythonで何らかの方法で R XMLパッケージで仕事を終えることができるようにpdfsを操作する

10

4 答え

PDFからテキストを抽出するのは難しく、ほとんどの場合、多くの注意が必要です。

私はpdftotextのようなコマンドラインツールから始めて、彼らが吐き出したものを見ていきます。問題は、PDFはどんな順序でもテキストを保存でき、厄介なフォントエンコーディングを使うことができ、結束文字(適切な組版で見られる 'ff'と 'ij'を結合したもの)を使うなどのことができます。

pdftotextは任意のLinuxシステムにインストール可能です...

10
追加された
よくpdftotextはきれいなテキストページを作成するのにうまくいきますが、私が望むものを簡単に作成するための形式ではありません。とにかく、ありがとう
追加された 著者 pssguy,
追加された 著者 pssguy,
Seconded。 Rでそれを行うことは、Rの外ではるかによく保守されているオプションがある場合には、誰でも開発し、維持する努力をする価値はありません。たくさんのファイルを実行する必要がある場合は、 find ユーティリティをUnix(またはWindows用のGNUコレクション)に置くか、またはRにシェルにコマンドを送ってファイル名をループさせることができます... Adob​​eは長い間ひどいテキスト抽出プログラムを持っていました。一方、Xeroxは良いものを持っていました。
追加された 著者 Iterator,
代表的なPDFファイルを教えてください。
追加された 著者 Spacedman,
pdftotextを実行すると、そのページで鮮やかではありませんが、psに最初に変換するか、PDFでps2txtを実行するだけで、ページの頭や足を取り除いたほぼ完璧な表が作成されます。
追加された 著者 Spacedman,
私は窓のpdftotextにも幸運を祈る
追加された 著者 pguardiario,

テキストマイニングパッケージ tm をチェックして、コード>。私は彼らが読者と呼ばれるものを実装したことを思い出しています。またPDFのためのものもありました。

5
追加された
ありがとう。私はドキュメントをチェックした。 pdftotextを何とか使う
追加された 著者 pssguy,

AFAIKでは、PDF表をデータ分析に役立つものに変換する簡単な方法はありません。 データサイエンスツールキットのファイルからテキストへのユーティリティ(Rインタフェースは RDSTK パッケージ)、結果のテキストを解析します。注意してください:解析はしばしば重要ではありません。


編集:PDFをXMLに変換するのに役立つ議論があります。 discerning.com 短い答えは、おそらく商用ツールを購入する必要があるということです。

4
追加された
+1ありがとう。ディスカッションをチェックし、ABBYY製品の試用版をダウンロードしようとしましたが、それは賢明にセットアップされませんでした。私は運命にあると思う
追加された 著者 pssguy,

PDFドキュメントからテーブルを抽出できるタブラアプリケーションの中心は、単純なコマンドラインJavaアプリケーション tabula-extractor

このJavaアプリケーションは、タブライザパッケージによってRにラップされています。 PDFファイルへのパスを渡すと、データテーブルが抽出され、データテーブルとして返されます。

例については、ドキュメントがデータベースになるとき - タブラのためのTabulizer RラッパーPDF Table Extractor

1
追加された