OCR無しPDFからテキストを起こす


顧問替えのお客さんにお願いするのが、就業規則、賃金規定、パートタイマー就業規則など給与計算や助成金に必要な根拠書類です。

でもそんな会社、だいたい紙しかもっていなくて

データでもらえますか?って言ってもPDF

むしろwordでもらえてしまうと「最新版ですか・・・?」と気になってしまう・・・

なぜか紙媒体だと「最新版ですか・?」とは聞けない雰囲気。

ということで紙の就業規則をスキャナでスキャンしてOCRに起こしてワードにする方法を書いていきます。

イメージ的には、紙就業規則を全スキャン
pythonでPDFをpng化
png化した文字をデータに起こします。最後に整える感じかな。

自分がインストールしたのはpopplerってやつとTesseractです。

遊び半分でインストールしたけど、見事にテキスト化できたので面白い

これをTexに起こせれば一番いいのかなと・・・

この記事が気に入ったらサポートをしてみませんか?