PDF element Proで・・・自炊PDF（たて書き）OCRをなんとかしたい・・・『LiquidText』を効率よく使うための準備編

シランケド

2022年2月27日 22:24

『LiquidText』と『MarginNote 』の選択で、両者の「試用期間」を使って検討しました。

『LiquidText Pro』（once）にしました。
シンプル is best　ですかね【うん、ほんまやで】・・・報告記事は後ほど

前々回の記事、で書いたように「ところが、縦書き（OCRなし）自炊PDFは悲惨」で『LiquidText』と『MarginNote 』でのOCRは諦めました。

また、OCRソフトについては、以前Winで使っていた「読取革命」が良かったので、Mac版を探しましたら、旧いOSバージョンしか対応していないので諦めました。

また、「読取革命」では１ファイルごと、認識範囲を確定していた記憶があり、数ページのドキュメントなら気にもなりませんが、自炊PDFにした書籍は150から300ページになります。【やってられん】

それに部分書き出しなら、『LiquidText』上で、テキストボックスか
手書き（『LiquidText』の決めたの一つ）すればいいわけです。

PDF element ProのOCRはこんなです・・・

PDFなら、これ一押し！というくらい評判のいいアプリです。
御本家Adobe様には申し訳ありませんが、サブスク嫌いで、Acrobatの有料化はしていません。Winでは、一太郎のついでにJust PDFを使っています。

Macのほうは、なにしろプレビューでできてしまいますので、わざわざPDFアプリは考えていなかったのですが、PDF element Proの試用を試して（PDF element Proの試用では、OCRは３ページまでです）から購入しました。

PDF element Proの画面です。
OCRを施したいPDFを立ち上げて、ツール→「OCRテキスト認識」で、言語を選んだりして始まります。
書籍を自炊PDF（見開き・150ページ）を一気に・・たぶん30分〜40分で「OCR完了」です。

完了したファイルを開く・・・読めない！

たぶん「縦書き」が原因・・・認識したテキストは張り付いているらしい・・・

これにめげず、テキスト部分を「選択」して、ページ（ワード）にコピペ

「ダ― ズリー家」「ハリ― 」、「ストーリー」「ストーり一」、「ヒーロ―」「ヒロー」「ヒーQ―」「ヒーロー」、「ス。ハヒロ」「スーパーヒーロー」、「才―ステイン」「オ―ステイン」、「才プニングイメ丨ジ」「ジョージ才―ウェル」、「ニューョーク. ヤンキ―ス」「ピ―プル」・・・・・
「考えてみょぅ。」「できた〇」「なってしまう〇」「弓きつけられる力らた。」

結果：

◉ ハイフンが苦手
◉「（　）」は拾わない
◉英数字を認識できない・・・「第卷は、」になる・・・
◉ときどき重複ページがある
◉改行はそのまま
◉段組一段はままOK
◉二段組。三段組、表、レイアウト（囲み記事など）はNG

まとめ

書籍を自炊PDF（見開き・150ページ）を一気に・・たぶん30分〜40分で「OCR完了」です。
完了した透明テキストを、一気に「選択」して、ページ（ワード）にコピペ
よく出てくる語句を、検索・置換で修正しながら、改行、英数字を書き足す・・・

もし、まだ読んでいない自炊PDFなら、修正しながら読んでいく・・・という手はあります。

こんなわけで、自炊PDFを読むのは、PDFで読んで、必要な長文だけを修正しながら、保存するということにしました。
上記の写真の「認識したテキストは張り付いている」PDFと元のPDFとは、ページは同じですので、修正して保存したい箇所は見つかります【うん、ほんまやで】

いずれにしても、縦がき文章のOCRは難儀です。

この記事が気に入ったらサポートをしてみませんか？

PDF element Proで・・・自炊PDF（たて書き）OCRをなんとかしたい・・・ 『LiquidText』を効率よく使うための準備編

PDF element ProのOCRはこんなです・・・

完了したファイルを開く・・・読めない！

これにめげず、テキスト部分を「選択」して、ページ（ワード）にコピペ

結果：

まとめ

PDF element Proで・・・自炊PDF（たて書き）OCRをなんとかしたい・・・『LiquidText』を効率よく使うための準備編