見える化手法・可視化手法・低次元化手法のハイパーパラメータを最適化する万能な方法はこれだ！

2016年10月20日 22:18

見える化・可視化・低次元化手法のハイパーパラメータを最適化するのって難しいですよね。教師あり学習でしたら最適化すべき指標がいろいろとありますが、見える化・可視化・低次元化手法のような教師なし学習を行うときは、確立された指標がないため、ハイパーパラメータを決めるのが困難です。たとえば、

■ガウシアンカーネルを使ったときのKernel Principal Component Analysis (KPCA) のガウス関数の分散σもしくはγとか
http://univprof.com/archives/16-02-28-2888959.html

■自己組織化写像 (Self-Organizing Map, SOM) のマップサイズとか学習率とか
http://univprof.com/archives/16-05-23-3410992.html

■Generative Topographic Mapping (GTM) のマップサイズとか動径基底関数 (Radial Basis Function) の数とかガウス関数の分散とかパラメータλとか
http://univprof.com/archives/16-05-31-3606877.html

■t-distributed Stochastic Neighbor Embedding (tSNE)のPerplexityとか
http://univprof.com/archives/16-06-07-3753277.html

何を基準にして決めればいいの？って思いませんか？

クロスバリデーションを使う？

一つ、クロスバリデーションをした後の、「誤差」を最小化する方法があります。「誤差」の指標として、Root-Mean-Squared Error (RMSE) やMean Absolute Error (MAE) があります。

詳細: http://univprof.com/archives/16-06-27-4280228.html

ただ、この方法は、サンプル数が多いときに時間がかかる、サンプル数が少ないときに結果が不安定になる、という問題があります。サンプル数が多くても、不安定になることがあり、これもやっかいです。また、そもそもtSNEのように写像関数が明示的に与えられない方法には使うことができません。

近いサンプルの間の中点を使う？

そこで、近いサンプルの間の中点を使う方法が開発されました。各サンプルとそれと近い１０個のサンプルとのそれぞれ中点を、仮想的なサンプルとして、その「誤差」を最小化する方法です。「誤差」の指標は、先ほどと同じでRMSEやMAEです。

詳細: http://univprof.com/archives/16-06-27-4280228.html

この方法で、時間がかかる問題や、結果が不安的になる問題が解消されました。しかし、クロスバリデーションと同様にして、tSNEを始めとして使えない見える化手法・可視化手法・低次元化手法があります。

そこで、tSNEはもちろんのこと、どんな見える化手法・可視化手法・低次元化手法にも用いることができる、ハイパーパラメータを最適化する方法を開発しました。

大事なポイントは、適切に見える化・可視化・低次元化したときに

「見える化・可視化・低次元化した前後のデータ間の位置関係が保持されている」

ということです。

詳細: http://univprof.com/archives/16-05-11-3120706.html

具体的な方法は有料とさせていただきます。内容は新しい情報が入り次第、随時更新します。また人気が出てきたら値段を上げてみるかもしれません。

方法については、プログラミングしやすいように、丁寧に順を追って説明しましたので、記事を読んで自分で実装することも簡単です。

見える化手法・可視化手法・低次元化手法のハイパーパラメータを、手っ取り早く、そして適切に最適化したい方はぜひご購入ください！

ここから先は

1,150字

¥ 480

ログイン

この記事が気に入ったらサポートをしてみませんか？