見出し画像

PDF element Proで・・・自炊PDF(たて書き)OCRをなんとかしたい・・・ 『LiquidText』を効率よく使うための準備編

『LiquidText』と『MarginNote 』の選択で、両者の「試用期間」を使って検討しました。

『LiquidText Pro』(once)にしました。
シンプル is best ですかね【うん、ほんまやで】・・・報告記事は後ほど

前々回の記事で書いたように「ところが、縦書き(OCRなし)自炊PDFは悲惨」で『LiquidText』と『MarginNote 』でのOCRは諦めました。

また、OCRソフトについては、以前Winで使っていた「読取革命」が良かったので、Mac版を探しましたら、旧いOSバージョンしか対応していないので諦めました。

また、「読取革命」では1ファイルごと、認識範囲を確定していた記憶があり、数ページのドキュメントなら気にもなりませんが、自炊PDFにした書籍は150から300ページになります。【やってられん】

それに部分書き出しなら、『LiquidText』上で、テキストボックスか
手書き(『LiquidText』の決めたの一つ)すればいいわけです。

PDF element ProのOCRはこんなです・・・

PDFなら、これ一押し!というくらい評判のいいアプリです。
御本家Adobe様には申し訳ありませんが、サブスク嫌いで、Acrobatの有料化はしていません。Winでは、一太郎のついでにJust PDFを使っています。

Macのほうは、なにしろプレビューでできてしまいますので、わざわざPDFアプリは考えていなかったのですが、PDF element Proの試用を試して(PDF element Proの試用では、OCRは3ページまでです)から購入しました。

画像1

PDF element Proの画面です。
OCRを施したいPDFを立ち上げて、ツール→「OCRテキスト認識」で、言語を選んだりして始まります。
書籍を自炊PDF(見開き・150ページ)を一気に・・たぶん30分〜40分で「OCR完了」です。

完了したファイルを開く・・・読めない!

画像2

たぶん「縦書き」が原因・・・認識したテキストは張り付いているらしい・・・

これにめげず、テキスト部分を「選択」して、ページ(ワード)にコピペ

画像3

「ダ― ズリー家」「ハリ― 」、「ストーリー」「ストーり一」、「ヒー ロ―」「ヒ ロ ー」「ヒーQ―」「ヒーロー」、「ス 。ハ ヒ ロ」 「スーパーヒーロー」、「才―ステイン」「オ―ステイン」、「才 プニング イメ丨ジ」「ジョージ 才―ウェル」、「ニューョーク. ヤンキ―ス」「ピ―プル」・・・・・
「考えてみょぅ。」「できた〇」「なってしまう〇」「弓きつけられる力らた。」

結果:

◉ ハイフンが苦手
◉「( )」は拾わない
◉英数字を認識できない・・・「第 卷 は、」になる・・・
◉ときどき重複ページがある
◉改行はそのまま
◉段組一段はままOK
◉二段組。三段組、表、レイアウト(囲み記事など)はNG

まとめ

書籍を自炊PDF(見開き・150ページ)を一気に・・たぶん30分〜40分で「OCR完了」です。
完了した透明テキストを、一気に「選択」して、ページ(ワード)にコピペ
よく出てくる語句を、検索・置換で修正しながら、改行、英数字を書き足す・・・

もし、まだ読んでいない自炊PDFなら、修正しながら読んでいく・・・という手はあります。

こんなわけで、自炊PDFを読むのは、PDFで読んで、必要な長文だけを修正しながら、保存するということにしました。
上記の写真の「認識したテキストは張り付いている」PDFと元のPDFとは、ページは同じですので、修正して保存したい箇所は見つかります【うん、ほんまやで】

いずれにしても、縦がき文章のOCRは難儀です。






この記事が気に入ったらサポートをしてみませんか?