見出し画像

[2022年06月]PDFからテキストを抽出

PDFから指定範囲のテキストを抽出することになった。
指定されたページの指定されたX, Y座標と幅, 高さでその位置にあるテキスト情報を抽出する。
言語はJava、ライブラリはApache PDFBoxを使う。

PDFは、解像度 dpi(Dot per inch)という単位で1インチ内のドット数を表します。
PDFの座標系は、72dpiで扱う。

実際にテキストを抽出してみてわかるのだが、文章が書かれている左上から右下に書かれていた文章を抽出しても一部の行や範囲が前後したりして抽出される。
これは、PDFの仕様らしく必ずしも書いてある順番にはなっていないとのこと。

PDFBoxは、強力で元のPDFに画像をオーバーレイしてPDFとして保存できたりもする。

JavaでPDFを操作する場合は、PDFBox お勧めです。

この記事が気に入ったらサポートをしてみませんか?