見出し画像

ぐん税ニュースレター RPAバックナンバー 2021年4月号

この記事は2021年4月に発行されたニュースレターvol.18からRPAの記事を再編集したものです。

業務効率化を推進していくうえで避けては通れない「紙」問題。
コロナ禍でペーパーレスも脚光を浴びていますが、 それでも中小企業では依然として紙の山から脱出できていません。
今回は紙をデータにする 「OCR」と弊社の取り組みをご紹介します。

OCRって何?

OCR (Optical Character Recognition: 光学文字認識)とは、スキャンした書類や写真といった「画像」から、メモ帳やワード等で編集可能な「文字データ」に変換する技術のことです。 技術的には20世紀初頭から存在し、現在では活字はほぼ100%、手書き文字に関してもAIの活用により非常に高い精度でデータ化が可能なサービスが登場しています。

弊社が利用しているのは、Google社が提供している「CloudVisionAPI」というサービスです。ビッグデータを活用した機械学習により、非常に高い精度でデータ化が可能で、手書き文字でも想像以上に読み取ってくれています。

精度が出ない? 事前準備は入念に!

ほぼ100%の精度といっても、それはOCRに掛ける画像がきれいであればこそ。例えば、FAXで受信した画像は低解像度でノイズも多いため、OCR精度は低くなりがちです。社内で印刷した原稿であっても、メモ書きやチェック、ラインが引かれていると誤認識する確率が高くなってしまいます。
また、罫線もなかなか曲者で、 「1」や「_」などに誤認識してしまうケースがあり、数字を扱う上では考慮しなければならない部分ですね。

OCR自体は他社サービスを利用しているので、いかにOCRに適した画像ファイルを作るか、という点が重要になってきます。
現在は、openCVというインテルが開発した画像処理エンジンを活用し、PDFからOCR用の画像を作成する処理を構築してい ます。

基本的な作業は、
(1)白黒に変換
(2)傾き補正や罫線・ノイズ除去
(3)読み取りたい範囲のみ抽出
といった内容になりますが、原稿の種類・状態は千差万別なため、最大公約数となるパラメータを探して日々試行錯誤しています。

実際の活用状況は?

弊社でのOCR活用は始まったばかりです。個人的には、 読取革命というソフトを利用して部分部分での自動化が図れないかと模索していたのですが、なかなか上手く行かず・・・。 WinAutomation (RPA)、Cloud VisionAPI (OCR)、 openCV (画像処理)を用いて、ようやく形になってきました。

日常にロボットが存在する日まで・・・

去る3月2日、米・Microsoftは同社のRPAサービスであるPower Automate DesktopをWindows10ユーザ向けに無償提供すると発表しました(*1)。今までも一部無償のRPAソフトウェアはあったものの、OSの世界シェア6割超を占めるWindows10に標準装備されるということは、いよいよRPAが一般的な技術になってきたと言えるでしょう。これを活用できる会社・できない会社の差はますます広がっていくことが予想されます。
withコロナの時代を生き残る会社となるために、ぐんま税理士法人と一緒に最初の一歩を踏み出してみませんか?

(*1)下記リンク参照

システム部 田中

この記事が気に入ったらサポートをしてみませんか?