PDFファイルから必要な情報を(無理矢理)抽出する方法

移動用

ネット上にはたくさんの情報があります。
特に政府の出してるデータは信頼度も高いのでお仕事で参照することも多いかと思います。

知りたい情報がExcelファイルで公開されていたら使いやすいですが、残念ながらすべてのデータがExcelファイルで公開されているわけではありません。
むしろ、公開されてるものはPDFの方が多い気がします。

そんなわけで、今回は特別なPDF編集ソフトがなくても、(なんとかして)できるだけ労力少なくデータを抽出する方法を紹介します。

Wordで無理矢理開いて抽出する

表形式のデータをPDFファイル上で直接コピペすると、必要ない情報もまとめてコピペされてしまいます。
そんなとき、見た目がしっかりした表であれば、いったんWordで開いてみると、編集可能な表形式に変換されます。

Wordで開くためには,pdfファイルを右クリックで選択→ プログラムから選択で、MicrosoftのWordを選択することで開くことができます。

Wordで開くことはあまり一般的ではないので,「別のプログラムを選択」を押しても出てこない場合があり,さらにそこから「その他のアプリ」を押してようやく出てくると思います。


Wordの新しいバージョンは賢いので,表データであれば,PDFから抽出した場合も表として出力してくれて,不必要な列を削除することもできるようになります。

(以下の図はあえてモザイクにしていますが,ちゃんとword上で日本語が出力されています)

あとは、その行列の情報をExcelに入れておけば、自分にとってより使いやすくすることができます。

ただ、残念ながら、PDF上の見た目に依存するのか、セル内で2行にわたるものが改行で出力されることもあり、コピペがうまくいかないこともあるので、必要に応じて微調整が求められてしまいます。

それでも、特別なPDF編集ソフトがなくても一時的に少しでもPDFファイルから楽に情報抽出が出来るのではないかなと思います。

おすすめの変換ソフト

ilove PDF という変換サービスがとてもおすすめです。
ウェブ上にアップロードするので、取扱注意資料については、使用は控えた方が良いかもしれませんが、PDFファイルをアップロードするだけで,その中にある情報をWordはもちろん、Excel、パワポのスライドに変換することもできます。
インターネット上に公開されてる資料で,数値情報を取り出すことが必要な場合はこのサービスを利用することで作業効率がかなりあがるかもしれません。

まとめ

今回の記事ではPDFファイルから無理矢理必要な情報を抽出する方法についてまとめました。
中には編集ロックがかかっていて上記のことができないものもあるかもしれません。
オープンな統計情報は今後、利用しやすい形で公開されるのが望ましいですが、それまでは上記の方法を使うと良いと思います。

この記事が少しでも役に立ちましたら幸いです。

タイトルとURLをコピーしました