画像認識モデルの可視化

ai_for_everyone

2022年1月9日 14:18

１、前書き

IT分野の開発者は、一番最初に「Hello World」を表示するソースコードから学ぶでしょう。そこに物事の始まりとの意味合いが含まれています。

同様に、AI分野の研究者は、最初に数字画像認識モデルを学ぶでしょう。
０～９の数字画像（MNISTデータセット）を使い、深層学習モデルの作成を練習します。

２、行ったこと

０～９の数字画像（MNISTデータセット）を教師データとして、Kerasで深層学習モデルを作成しました。

できたモデルが内部の高次元空間で持つ画像情報を２次元空間に写像し、可視化の画像を作成しました。

※１、Kerasとは
　　　pythonの深層学習ライブラリである。
　　　手軽に利用できることが有名。
　　　https://keras.io/ja/
※２、MNISTとは
　　　MNISTは０～９の数字画像のデータセットである。
　　　２８×２８の小さい画像で、合計7万枚。
　　　http://yann.lecun.com/exdb/mnist/

３、モデルの概要

２８×２８の画像のピクセル数は７８４であるため、モデルの入力データは７８４次元です。

下記の構成でモデルを実装し、２０回学習を行い、最終精度は９９．３％に達しました。高い精度とは言えないが、可視化には十分であるでしょう。

最後、学習に使っていないテスト用の１万枚画像をモデルに入力し、出力層の入力データ（１２８次元）を可視化します。
１２８次元のデータはそのまま表示できないため、PCAで次元圧縮し、２次元にします。その結果、１枚の画像は１つの点になります。数字は点の色で分けます。
ご覧の通り、同じ数字の画像は概ね集まっていて、異なる数字の画像は大体離れています。９９．３％という精度が実感できているかと思います。

４、最後

数字画像認識は比較的にシンプルな問題であるため、可視化の結果は非常に分かりやすいと思います。
でも、実際のデータなかなかこうはなりません。

本記事は以前AIを勉強していた際にに作ったものを簡単に紹介しました。
可視化の結果に重点を置き、詳しい実装内容を省きました。

今後、AIを含む最新最先端の技術内容を紹介していきたいと思います。
どうもよろしくお願いします！

この記事が気に入ったらサポートをしてみませんか？