出版業界の売上伸ばすためにAI使って何できるのかなあ。勉強中の自分が考えてみたメモ。

2019年7月3日 08:44

　それほど熱心にではないのですが、出版業界の売上を伸ばすためにAIを使って何ができるのかについて、Webで様々な記事を読んだり無料講座を見たり本を読んだりしつつ考えています。
　『ゼロから作るDeep Learning』は通読しました。理解できているわけではないですが、そもそもディープラーニングがどういうものかについてはなんとなく。２は途中まで。Googleが公開している無料講座（『はじめてのAI』）はTensorFlowのできることと活用事例がわかりやすかったです。テンソルフロウだと思っていたけどテンサーフローと発声するのかという発見も（どうでもいいですが）。

　ちょっと前までは、画像の類似性の判定のために、CV（コンピュータビジョン）関係をWebで漁っていました。ヒストグラムを使って行う類似判定とニューラルネットワークを使った「画像の分類」には、当然のことながら共通する点が多く、そのあたり、少しだけ理解出来たように思います。蛇足ですが、ヒストグラムを使って行う画像の類似判定（PHPで書きました）は、近刊検索デルタで刊行前の表紙画像をamazonから取得する際にamazonオリジナルの「本の形にタイトル文字」という画像を弾くために使っています。

　と、その程度の知識なので、出版業界の売上を伸ばすためにAIを使って何ができるのか、大いに語ることは難しいです。が、AIが得意と思われる分類（類似判定含む）を使えばこういうことなら可能性はあるのかなあと夢見る程度はできそうです。

　ということで、いくつか、考えてみました。

１．AIを使った配本の最適化（分類）
　（※以下、配本の実際については微妙な課題もあるため、あくまで概念として触れています。個別の事例についてあまり深く突っ込まれると困ることもあるのでご容赦ください。）
　配本の最適化ですが、いろいろ端折って言うと、個別店舗の過去の実績に基づいて出版社が提案する数を調整し按分する、ということになるかと思います。現状、様々な課題があり、「多すぎる」「少なすぎる」といった問題が発生しているようです。これをAIでなんとかできないか。
　「過去の実績に基づいた配本」と言っても、基本的には「似た本の過去の実績」です。AIの得意な「分類」は、ここで活かされるはずなんですが、どうでしょうか。
　書籍の分類は各所で行われていますが、図書館の十進分類も書店の棚も出版社によるCコードも、基本的には人力で、基準はやや曖昧です。図書館での分類の問題は最近ニュースになるなどしていたのでご存知の方も多いでしょう。Cコードは出版社が付けますが、かなり揺れます。実例はCcodeRR（自分が作ったCコードから書誌情報を引けるサービスです）でご覧ください。
　こういう「曖昧かつ人力での分類」の機械化は、AIの得意な分野です。
　少し話が逸れます。
　分類というと、出版業界では割と有名な事例があります。ひとつは、BL漫画（コミック）、小説レビューサイト【ちるちる】の詳細な分類、もうひとつは、CPU（コンピューター出版販売研究機構）によるコンピュータ書籍棚分類コード、です。ちるちるの分類は「タギング」に近いものです。
　どちらも細かいですが、ちるちるは特に「本文を読まないとできない」タイプの分類のように思えます。多分人力（理由は、刊行直後のものには細かいタグが振られていないから）なのでしょうが、大変な労力ではないかと。ちるちるはこの細かい分類を武器に「AIでオススメ」というサービスも実施しています。
　コンピュータ書籍棚分類コードも、基本的には内容を理解していないと付けられません。元々、「コンピュータ書のタイトルを見ても内容が把握できずどこに置いたらよいか分からない」書店員のために、どの棚に置けばよいかを出版社が分かりやすく明示するためのコードがコンピュータ書籍棚分類コードなので、内容を把握できていることが前提になるのは無理がないようです。
　話を戻します。配本に使うためには発売前の本の分類が必要です。現状の発売前の情報で、本の分類はどこまで可能でしょうか。
　JPRO（JPO出版情報登録センター）の近刊情報は、必要最低限だとかなり情報項目が絞られます。とはいえ、例えば著者や出版社、レーベル（●●文庫など）やシリーズといった項目は、過去の実績を紐付けるためには有効でしょう。それだと現状でも充分に可能なはずです。というか、むしろ現状だと、それ以外でどうやって過去の実績と紐付けるのかという話になります。
　ここへ来て前提をひっくり返すようで恐縮ですが、配本（近刊の仕入れ）の現状の課題は、もしかすると分類によるものではないのかも知れません。そうなると、この件は根本的に考え直す必要がありそうです。

２．背表紙のデータを使った棚卸の自動化（画像と文字の認識）
　店舗には必ず防犯カメラが設置されています。最近では顧客の購買行動を記録するために使われる例もあるようですが、防犯カメラの画像を使って、本の背表紙（棚差し）や表紙（面陳・平積み）を認識し、書籍と冊数を特定する事ができれば、ICタグ無しでも棚卸が可能になります。
　実現のための課題は、まず「背表紙のデータ（教師データ）」です。OCRで全てをカバーするのは、認識率を考えると現実的ではないです。背表紙のデータが必要な理由は、束厚から平積みや面陳の冊数を算出するためでもあります。背表紙のデータは、取次（入荷のラインで）で収集し、業界で共有できれば素晴らしいです。
　AIというほどの処理ではないとは思いますが、実現するとかなりインパクトはありそうです。
　ICタグと同様、「誰が導入・運用費用を負担するのか」という話になりそうですが、カメラの画像で棚卸できるのであれば、物流倉庫、取次、書店など、在庫を抱えるところは、どこもメリットがあります（倉庫の棚卸費用が減ることで出版社にも）。

３．返品活用のための良品・不良品の区分け（画像認識）
　取次から返ってきた返品は、通常、「不良品」「未改装」などとしたうえで入庫し、カバーの掛替などの「改装」を経て、「良品」「整品」として次の出荷を待ちます。
　改装に際しては、状態に関わらず全ての返品（「不良品」「未改装」）のカバーを掛けかえるのが一般的です。返品→改装→再出荷にかかる作業とカバーやスリップなどの付物、再出荷を待つまでの在庫管理費用などは、思った以上にかかります。しみったれた話かも知れませんが、梱包のまま返ってきた状態の良い返品であれば、改装を行わずそのまま整品としても良いのではと思うことはあります。そうすると改装費用だけでなく付物も節約できます。
　ここで課題になるのは「状態の良し悪しをどうやって見分けるか」です。良し悪しの判定の基準が曖昧だと誰かに頼むこともできません。基準を明確にしたとしても、誰かに頼むとなると一点一点を目で見て判断する作業が発生します。そうなると節約できる金額よりかかってしまいそうです。
　こういうのこそ、AIで判断してもらいたいところです。表紙（カバー）の画像データがあればある程度いけるのではないか……。
　しかし、一冊一冊をスキャンするとなるとそのための作業が発生するので、どうやらこの話はあまり現実的ではなさそうです。
　しかし、さらにしかしですが、出版社と取次で「書店からの返品で状態の良いものは改装せずそのまま別の書店に出荷してかまわない」といった旨の契約を行ったうえで実施する分にはどうでしょうか。
　返品活用という話は昔からないわけではありません（が、例外的だったはず）。状態の良し悪しにある程度の基準を設けることができれば、今よりもっと進められるのではないでしょうか。
　取次が返品のラインで良し悪しを判定して状態のよいものを返品活用できれば、返品の輸送を減らしたい取次にも出版社にもメリットはあります。書店には直接的なメリットは無さそうですが、売れる店とそうでもない店の調整機能としての返品を考えると、そうでもない店からの返品をなるべく速やかに売れる店が受け取れる（一度出版社の倉庫に戻る過程が減る）と考えると、少しはメリットもあるかと。
　良し悪しの「悪し（≒汚損本等）」について、取次で故紙化してもらうという可能性はどうでしょうか。全ての出版社ではありませんが、雑誌の返品のように書籍についても指定のアイテムを出版社の倉庫に返さず取次で故紙化している事例は増えているはずです。何らかの客観的な基準が可能であれば、汚損本などについて出版社に返さず取次で故紙化することでお互いに運賃や入庫費用を削ることができるかも知れません。

　なんでこんなメモを書いているかというと、7月3日開催の勉強会「出版を元気にする勉強会プロジェクト：「AI導入は出版業界を救うか？」～第28回本とITを研究する会～」に参加する前に自分の考えを整理しておこうと思ったからです。今まで人間が行ってきた曖昧な「分類」の一部をAIに委ねることで何を実現できるか、まだまだ考える余地はたくさんありそうです。

【追加】AIによる校正支援ツールの未来
　いろんな方に「おまえは校正のなんたるかをわかっとらん」と叱られそうですが、実用的な出版物であれば、AIによる校正支援ツール、近い内に劇的に使えるようになりそうですよ。現在発売されているジャストシステムの文章支援ツール Just Right!6 Pro でも、誤字・脱字や言葉の選択ミスと表記のゆれについては、かなりの部分が処理できるはず。「こんなんじゃ使いもんにならん、プロの仕事をなめんじゃねえ！」と言われそうですが、未來社の西谷能英さんが書かれた『出版のためのテキスト実践技法（総集編）』で扱っていたのは「こういうのはSED使って機械的に処理しよう」というお話でした。

この記事が気に入ったらサポートをしてみませんか？