PDF element Proで・・・自炊PDF(たて書き)OCRをなんとかしたい・・・ 『LiquidText』を効率よく使うための準備編
『LiquidText』と『MarginNote 』の選択で、両者の「試用期間」を使って検討しました。
『LiquidText Pro』(once)にしました。
シンプル is best ですかね【うん、ほんまやで】・・・報告記事は後ほど
前々回の記事、で書いたように「ところが、縦書き(OCRなし)自炊PDFは悲惨」で『LiquidText』と『MarginNote 』でのOCRは諦めました。
また、OCRソフトについては、以前Winで使っていた「読取革命」が良かったので、Mac版を探しましたら、旧いOSバージョンしか対応していないので諦めました。
また、「読取革命」では1ファイルごと、認識範囲を確定していた記憶があり、数ページのドキュメントなら気にもなりませんが、自炊PDFにした書籍は150から300ページになります。【やってられん】
それに部分書き出しなら、『LiquidText』上で、テキストボックスか
手書き(『LiquidText』の決めたの一つ)すればいいわけです。
PDF element ProのOCRはこんなです・・・
PDFなら、これ一押し!というくらい評判のいいアプリです。
御本家Adobe様には申し訳ありませんが、サブスク嫌いで、Acrobatの有料化はしていません。Winでは、一太郎のついでにJust PDFを使っています。
Macのほうは、なにしろプレビューでできてしまいますので、わざわざPDFアプリは考えていなかったのですが、PDF element Proの試用を試して(PDF element Proの試用では、OCRは3ページまでです)から購入しました。
PDF element Proの画面です。
OCRを施したいPDFを立ち上げて、ツール→「OCRテキスト認識」で、言語を選んだりして始まります。
書籍を自炊PDF(見開き・150ページ)を一気に・・たぶん30分〜40分で「OCR完了」です。
完了したファイルを開く・・・読めない!
たぶん「縦書き」が原因・・・認識したテキストは張り付いているらしい・・・
これにめげず、テキスト部分を「選択」して、ページ(ワード)にコピペ
「ダ― ズリー家」「ハリ― 」、「ストーリー」「ストーり一」、「ヒー ロ―」「ヒ ロ ー」「ヒーQ―」「ヒーロー」、「ス 。ハ ヒ ロ」 「スーパーヒーロー」、「才―ステイン」「オ―ステイン」、「才 プニング イメ丨ジ」「ジョージ 才―ウェル」、「ニューョーク. ヤンキ―ス」「ピ―プル」・・・・・
「考えてみょぅ。」「できた〇」「なってしまう〇」「弓きつけられる力らた。」
結果:
◉ ハイフンが苦手
◉「( )」は拾わない
◉英数字を認識できない・・・「第 卷 は、」になる・・・
◉ときどき重複ページがある
◉改行はそのまま
◉段組一段はままOK
◉二段組。三段組、表、レイアウト(囲み記事など)はNG
まとめ
書籍を自炊PDF(見開き・150ページ)を一気に・・たぶん30分〜40分で「OCR完了」です。
完了した透明テキストを、一気に「選択」して、ページ(ワード)にコピペ
よく出てくる語句を、検索・置換で修正しながら、改行、英数字を書き足す・・・
もし、まだ読んでいない自炊PDFなら、修正しながら読んでいく・・・という手はあります。
こんなわけで、自炊PDFを読むのは、PDFで読んで、必要な長文だけを修正しながら、保存するということにしました。
上記の写真の「認識したテキストは張り付いている」PDFと元のPDFとは、ページは同じですので、修正して保存したい箇所は見つかります【うん、ほんまやで】
いずれにしても、縦がき文章のOCRは難儀です。
この記事が気に入ったらサポートをしてみませんか?