AI活用に欠かせないデータ品質問題｜種類や取得方法、高品質なデータのポイントまで

AI Journal

2023年12月8日 19:00

AIの世界では、データは非常に重要です。品質の高いデータがなければ、価値ある洞察は得られません。とはいえ、AIのデータ品質はどのように担保すればいいのでしょうか。

本記事では、AI学習データの種類や高品質なデータの特徴、準備方法などを紹介します。

本記事を読めば、データの品質がAIの性能にどれほど影響するのか、そしてその品質をいかに確保し継続的に向上させるのかが分かります。

AIに少しでも関わっているならば、データ品質は欠かせない問題です。ぜひチェックしてみてください。

AIデータとAI学習データ

AIに関するデータ品質を考える前に、まずは意外に混同してしまいがちな「AIデータ」と「AI学習データ」の違いをはっきりさせておきましょう。

AIデータ

AIデータとは、いわば「AIシステムによって出力されたデータ」を指します。例えば、AIシステムによって予測された服のサイズや人事評価などです。

AIデータの品質は、後述するAI学習データの影響を受けると言われています。なぜなら、AIは学習した結果をもとに予測や判断をするため、学習したデータが間違っていると予測や判断も間違ってしまうからです。

具体的には、「日本はクリスマスの時期になると海へ行く人が増える」と学習した場合、AIは12月に水着が売れると予測してしまいます。しかし、実際に海へ行く人が増えるのは夏なので、このAIの予測は間違いになってしまうのです。

間違った予測をしてしまったのは、間違った学習をしてしまったためです。そのため、AIデータの品質は、学習させるデータにある程度依存していると言えます。

そこで、AIはこのように間違う場合もあることを受け入れ、リスクマネジメントをしていく必要があるのです。

AIデータのリスクマネジメントについては「AIデータのリスクマネジメントはなぜ重要？背景や具体的なフレームワークについて」で詳しく解説しています。こちらもぜひ併せてご覧ください。

AI学習データ

AI学習データとは、いわば「AIによる予測や判断を可能にするために学習させるデータ」を指します。AI学習データは「教師データ」や「トレーニングデータ」とも呼ばれ、これらのデータを使って機械学習することによって、予測や判断が可能になります。

機械学習については「機械学習とは？その種類や仕組み、AI・深層学習（ディープラーニング）・ニュートラルネットワークとの違い、主な事例について徹底解説」で詳しく解説しています。ぜひ併せてご覧ください。

みなさんも、知識ゼロの状態で「車は何月が一番売れるのか」を判断するのは難しいはずです。しかし、過去のデータや行動心理学などを学習すれば、ある程度の予測は立てやすくなるのではないでしょうか。

AIも同じで、データから学習し、それに基づいた予測や判断を行うのです。

しかし、AI学習データが適切ではないと、AIの予測や判断に影響を及ぼしてしまいます。先ほどの12月に水着が売れると予測する例もそうですが、与えるデータに偏りがあると、AIデータにも偏りが出てしまいます。

AI学習データの品質は、AIシステムに多大な影響を与えると言っても過言ではありません。そのため、適切なAI学習データを取得し、学習させていく必要があるのです。

AI学習データの種類

AI学習データの種類は多岐にわたり、適切なデータタイプの選択はプロジェクトの成功に不可欠です。

主なAI学習データの種類は、以下の通りです。

画像データ
音声データ
テキストデータ
映像データ
数値データ

それぞれどんな特徴があるのか、一つずつ見ていきましょう。

画像データ

画像データは主に画像解析や識別に使用されるもので、AIは共通点や相違点などを学習します。具体的には、人の顔の画像や製品の外観などです。

実際に画像データを学習したAIは、顔認証システムや外観検査などで使用されます。

顔認証システムは多数の顔の画像から人によって同じ部分・違う部分を学習し、持ち主の顔を判別しています。

外観検査も成功例と失敗例の画像から違いを学習し、検出するべき外観を判別しているのです。

画像データを学習したAIを使えば、画像に写っている文字を判別したり人の年齢を推測したりといった応用的な使い方も可能です。

音声データ

音声データは主に音声認識で使用されるもので、AIは言葉を学習します。具体的には、通話データや会議などの音声データです。

実際に音声データを学習したAIは、スマートスピーカーやロボットなどで使われます。

スマートスピーカーやロボットは音声データから言葉を学習し、指示されていることを認識しているのです。

返答までしてくれるAIは、音声を認識してどのように返せばいいかまで判断していることになります。

音声データを学習したAIは、文字起こしや会話の抑揚を抽出するといった使い方も可能です。

テキストデータ

テキストデータは主に文章作成で使用されるもので、AIは言葉や文章のつながりを学習します。具体的には、インターネット記事や論文などです。

実際にテキストデータを学習したAIは、チャットボットや自動翻訳などで使用されます。

チャットボットは入力された言葉に対し、意味が通じるように適切な返答を選択します。自動翻訳も入力された言葉に対し、同じ意味になるように指定された言語で出力します。

テキストデータを学習したAIは、文章を校正したりSNS分析をしたりといった使い方も可能です。

映像データ

映像データは主に映像解析で使用されるもので、AIは共通する動きやパターンを学習します。具体的には、監視カメラやドライブレコーダーの映像などです。

実際に映像データを学習したAIは、車や監視カメラなどに搭載されます。主な機能としては、前の車に近づきすぎると自動でブレーキを踏んだり、不審者を検知したりすることなどです。

映像データを学習したAIは、周囲の状況を把握して車体をコントロールしなければならない自動運転でも役立ちます。

数値データ

数値データは主に統計的な分析で使用されるもので、パターンや傾向などを学習します。具体的には、業績や顧客の購買データなどです。

実際に数値データを学習したAIは、需要予測や経済分析などに用いられます。過去の購買データから未来の需要を予測したり、人々の経済活動を分析したりなどです。

ただ、機械学習の際に他のデータを数値化して入力するケースも多いため、広い意味ではほとんどのデータは数値データと言えます。

“高品質なAI学習データ”とは

結論からいうと、AIの活用目的に合致していれば高品質なAI学習データといえます。ただ、一般的な高品質なAI学習データの要素は、以下の3つです。

バイアスが少ない
網羅性がある
抜け漏れがない

「バイアスが少ない」とは、学習データの偏りがないことです。学習データにバイアスがかかっていると、AIが正確な予測を出せません。そのため、偏りなく幅広いデータが必要なのです。

「網羅性がある」とは、学習データにバリエーションがあるということです。成功例が一つしかないと、AIはその一つの成功例以外はすべて失敗と認識してしまいます。いろいろな角度から物事を判断するために、複数の学習データが必要なのです。

「抜け漏れがない」とは、学習データの完全性のことです。学習データに抜け漏れがあると、そのデータは正しくないものになってしまいます。そのため、抜け漏れのない完全なデータが求められるのです。

具体的には、AI翻訳をしたいなら正しい文法と言葉遣いで書かれた複数言語のテキストデータが必要です。もちろん学習データの文法が間違っていれば、AIも間違った文法を学習してしまいます。

AIによる画像解析で人の顔を抽出したいなら性別・年齢・国籍などが異なる複数の人が写っている画像データが必要です。例えば若い年代の人ばかりが写った画像データを学習させてしまうと、高齢の人の顔を判別できなくなるおそれがあります。

高品質なAI学習データを準備することは、AIの精度を高めることに直接的につながるのです。

AI学習データの3つの準備方法

AI学習データは高品質なものが求められますが、どのように準備すればいいのでしょうか。AI学習データの準備方法は、主に3つあります。

既存の自社データを活用する
既存のデータセットを活用する
新たにデータを収集する

それぞれ特徴があるため、どれが自社に適しているか、一つずつ見ていきましょう。

既存の自社データを活用する

これまで自社で蓄積してきたデータを活用すれば、もっとも簡単に確実な情報を準備できます。

具体的には、顧客の購買データやカスタマーサポートの通話履歴などです。情報の信頼性は担保されているため、AI活用の目的に合致したデータがあれば、AI学習データとして活用可能です。

しかし、AIの学習データに使えるようなデータを蓄積できている企業は多くありません。適切なデータを大量に貯めておくには、知識もコストも必要です。

そのため、自社で蓄積したデータを使えそうにない場合は、他の方法も検討してみましょう。

既存のデータセットを活用する

AI学習データの中には、インターネット上で無料公開されているものもあります。そのような既存のデータセットを使うことも、AI学習データを準備する方法の一つです。

ただ、「インターネット上で無料公開されているものなんて怪しいのでは？」と思う方もいるでしょう。

たしかに、中には怪しいものもあるかもしれませんので、情報の提供元はしっかり見ておく方がいいでしょう。

とはいえ、国や大学、大手企業が公開しているデータセットも多いため、これらを活用するのは一つの手です。

e-Govデータポータル：多様なカテゴリから検索可能な中央行政のオープンデータポータル
政府統計の総合窓口：17の統計分野から検索できる政府統計ポータルサイト
Harvard Dataverse：ハーバード大学が公開する機械学習に使用可能なデータセット
AudioSet：Googleが公開する音声データセット
Web data: Amazon reviews：Amazonレビューのデータセット

自社ではデータを用意するのが難しいが、既存のデータセットで目的に合ったものが見つかったという場合は、活用してみましょう。

新たにデータを収集する

自社内データや既存のデータセットの中に目的に合ったデータがなかったりする場合は、新たにデータを収集する必要があります。

新たにデータを収集する方法としては、紙媒体の情報を集めたりWebスクレイピング（Web上の情報を収集する技術）をしたりすることなどが挙げられます。

ただ、新たにデータを収集するには、時間や人員、金銭的なコストなどがかかります。社内にリソースがあればいいですが、ない場合は専門の業者に委託することも検討しましょう。

AI学習データの品質を高めるポイント

AI学習データの品質を高めることは、AIモデルの性能と精度を向上させるために不可欠です。

AI学習データの品質を高めるには、主に以下のようなものがあります。

重複する行や列の削除
欠損値や外れ値、インライアの処理

重複したデータがあったり、逆に欠けているデータがあったりすると、AIは正確に学習できません。欠損値や外れ値があまりに多い場合は、行そのものをデータから削除したほうがいい場合もあります。

特に、自社でデータを用意する場合は、このような重複や欠損が存在する可能性があります。AI学習データの品質を高めるためにも、確認してみましょう。

まとめ：AI学習データの品質は継続的に向上させましょう

AI学習データの品質向上は、モデルの精度と効果を高めるキーになります。AI学習データにはさまざまな種類がありますが、一般的にはバイアスが少なく網羅性があり、抜け漏れがないものが高品質なデータです。

AI学習データは、自社で用意したり、既存のデータセットを利用したり、新たにデータ収集して用意したりするなどの方法があります。また、AI学習データの品質を高めることによって、AIが出力するデータの質を高められます。

AI学習データの品質は、継続的に高めていきましょう。

この記事が気に入ったらサポートをしてみませんか？