見出し画像

機械学習用のデータ品質チェックツールをリリースしました

はじめに

皆様お忘れかと思いますが、私は一応データサイエンティストの端くれです。というわけで、色々と技術についても考えていて、今日はそれに関連したアプリケーションのリリース紹介となります。

ちなみに、今朝方、Microsoft の審査を通過しました。

どんなアプリ?

まぁ、定型的な文書で書きますね。

ソフトウェア名

Machine Learning Data Checker

実装機能

Data-Centric AI を進めるために必要な機能を実装したソフトウェアとなります。データの品質調査やデータの理解を支援することに主眼を置いたソフトウェアとなります。

大まかには以下の機能があります。概要は下部に追記します。

  • 目的変数解析

  • 説明変数解析

  • 項目間依存関係解析

  • 時系列項目間依存関係解析

  • 学習用データ品質解析

  • 学習用データノイズ解析

対象データ

csv ファイルのみ(BOMなしUTF-8を想定)

対応言語

日本語、英語

対応機種

Windows 10, 11 (64bit)
Windors11 Pro を推奨。大規模データを処理する場合、スレッド数、メモリともに余裕のある環境で実行してください。

配布箇所

Microsoft Store
アプリURL : https://www.microsoft.com/store/apps/9NKDJ0HTJ29P
Microsoft Store ID : 9NKDJ0HTJ29P
Microsoft Store プロトコル リンク : ms-windows-store://pdp/?productid=9NKDJ0HTJ29P

もうちょっと細かく

各実装機能の詳細はこんな感じです。

目的変数解析

目的変数の統計情報を表示します。
また、目的変数に影響を与える説明変数を影響度順に出力することも出来ます。この機能を使えば、不要な説明変数の除去や冗長なデータの解析なども可能です。
モデルのコンパクト化などに使えます。

説明変数解析

説明変数の統計情報を表示します。

項目間依存関係解析

項目間の依存関係を計算して提示します。LiNGAM的な出力ですが、考え方は異なります。また、従来手法に比べ、比較的高速に動作します。
グラフ状態でのデータ確認をする場合、GraphViz のインストールが別途必要となります。
これにより、データ理解がよりやりやすくなり、データを元にした意志決定の補助情報として使えます。

時系列項目間依存関係解析

時系列データでの説明変数と目的変数間の依存関係を計算して提示します。
どれぐらい前から問題が発生しているかといった調査のアタリを付けることに使えます。

学習用データ品質解析

機械学習の学習用データをいくつかの領域に分割し、領域単位での品質を評価します。クラスタごとの品質をエントロピーの形で提示します。エントロピーの高いクラスタは機械学習の成績を悪化させる要因になります。
この情報を元に、データの精査や機械学習モデルの完全に繋げる事が出来ます。

学習用データノイズ解析

機械学習の学習用データ中に含まれるノイズを検出し、それを出力します。
ここでは、ノイズを3種類定義し、データがどのノイズに含まれているかいないかを提示します。
ノイズデータは学習時の成績悪化の大きな要因になりますので、これに対して対策を打つことで、機械学習モデルの成績向上に非常に大きな効果があります。

なお

実際には、応用パターンは非常に多く、全てを紹介することは出来ません。申し訳ありません。

ソフト代について

当面は無償で公開しますが、将来的にはサブスクリプションでの提供へと移行する予定です。ビジネス利用の方は、その際にサブスクリプション版への移行をお願いします。
学術機関の方は、サブスクリプションでの提供を開始した後でも無償で提供いたします。御手数をおかけしますが弊社にコンタクトを取って下さい。
また、個人で使う場合は、サブスクリプション版の無償利用枠をご利用ください。1日あたり数回までは無償で使えるようにする予定です。回数は現在検討中です。

今後実装予定の機能

  • 評価データが学習セータに対して外挿になっているかいないかを評価する機能(現在、グレイアウトされています)

  • 項目を精査した上で各種評価を行う組み合わせ機能

今後の開発について

上記に予定した機能以外にも分析で必要と判断した機能は追加していく予定です。大きな機能追加が発生した場合、LinkedIn をはじめとした各所でリリース情報を展開いたしますので、私の作成する記事を定期的に確認いただけますと幸いです。

おわりに

ま、note なのでビジネス色はちょーっと薄めな文章にしました。
もしビジネスで何とか…ってのがある場合は、コンタクトを取って下さいませ。

あと、なんやかんや展示会とかうろついていますんで、タイミングが合えばそのあたりで会話もできんでもないです。

まぁ、知識が無いと使いにくいアプリでもあるんで、ちょっと利用者を選ぶところはありますが、データ分析する人とかデータサイエンスに興味があるなら便利に使えると思います。

お楽しみくださいませ。

この記事が気に入ったらサポートをしてみませんか?