見出し画像

AI開発に欠かせないデータマネジメントの課題と対策

こんにちは、LPIXELの研究開発本部 データ&プロジェクトマネジメントグループの杉江です。
データ&プロジェクトマネジメントグループは専門のデータマネジメント部署であり、医療AIの開発や薬事申請に利用するデータの準備や社内のデータの一元管理を行なっています。

医療データを利用するためには、下記のようなプロセスを経る必要があります。今回はデータマネジメントのプロセスの中で、特に課題となっているデータ収集とアノテーションに焦点を当ててご紹介します。

データマネジメントのプロセスイメージ

ハードルの高い医療データ収集

医療AIを上市するまで」の記事でもご紹介しましたが、AI画像診断支援ソフトウェアの開発には、大量の良質な医療画像データが必要になります。
大量の医療画像データの入手元については、一部海外のデータを利用することもありますが、大半は国内の医療機関からご提供いただいています。
まずはデータ収集の課題やLPIXELでの対策について、ご紹介します。

医療画像データ収集のハードルが高い理由

海外では商用利用可能な大規模な医療画像データベースや、データを販売している企業が多くあり、医療データを容易に入手できる環境が整っており、医療研究やAI開発の進展に貢献しています。一方で、現在の日本では医療画像データベースは学術利用に限定されているケースも多く、医療データを販売している会社も限られています。
そのため、医療データを収集するためには個別の医療機関に依頼をして医療画像データを提供いただく方法がメインとなりますが、医療データの利活用はまだまだ過渡期ということもあり、国内の医療業界ではデータを第三者に提供する仕組みが浸透しておらず、データを入手するのは一筋縄ではいきません。 
 
LPIXELが収集しているCT、MR、一般撮影などの医療画像は個人情報の中でも「要配慮個人情報(*1)」に当てはまり、特に慎重な取り扱いが必要になります。医療データの利活用を促進するような法律も改定されてはいるものの、患者さんの画像データは重要な個人情報であること、まだまだ歴史が浅く変化も大きい分野であることなどから、慎重に検討される施設が多いのも現状です。
また、個人情報保護法の遵守に加え、医療画像の利活用は「人を対象とする生命科学・医学系研究に関する倫理指針」の対象となり、倫理委員会での承認も必要となります。医療画像データの利用についての審査は、申請書提出後、承認が得られるまで通常でも数ヶ月、場合によっては1年近くかかってしまうこともあるのが実情です。
 
倫理審査で無事に承認を経た後も、院内システムからのデータを抽出する際の課題があります。病院ではX線などの医療画像とレポートの管理システムが独立している場合も多く、その場合は手作業でのコピーや紐付け作業が必要になります。当然でありますが、病院では診療目的以外にデータを利用することは想定されておらず、AI開発に最適な形でデータが保存されているわけではないため、データを収集する際は、必要なデータを特定した上で抽出、整理する必要があります。データの格納方法も施設によって異なるため、施設ごとの対応も求められます。

*1:要配慮個人情報とは、不当な差別や偏見その他の不利益が生じないようにその取扱いに特に配慮を要するものとして政令で定める記述等が含まれる個人情報をいいます(法第2条第3項)

引用元:個人情報保護委員会

データ収集の課題に対して、LPIXELが実施していること

このようなハードルはあるもののLPIXELでは、より多くの医療機関からデータ提供をいただけるよう以下のような活動をしています。

スムーズなデータ収集を行うためには、まずデータの要件を明確にする必要があります。データの要件が決まっていないと、データ収集先の決定や個人情報の扱い、データ抽出条件等、データ収集活動の全てにおいて影響を及ぼします。そのため、開発の目的や課題、製品の仕様に基づいてデータの収集要件を事前に明確にしておくことが最重要です。

次に個人情報保護の観点からデータ提供に不安をお持ちの医療機関に対しては、弁護士の先生の協力を得ながら法的に問題がないことを確認した上で、医療機関と情報交換を行います。収集するデータの内容に応じた最適な対応をご提案することで、安心してデータをご提供いただけるよう心がけています。施設側で匿名加工等の作業済みのデータを入手した場合、データ受領後にLPIXELで個人情報が含まれていないことをダブルチェックをした上で利用し、漏洩がないよう徹底しています。

データの抽出作業に際しては、AI開発に必要なデータ要件を明確にした上で、少しでも作業の負担を軽減できるよう、自動化など効率化の方法も検討しています。

医療データ収集には様々な課題がありますが、1件1件地道に活動することでAIにご興味を持っていただけるケースも増え、お陰様で現在では数十の国内の医療機関とデータ提供契約を締結させていただいています。お忙しい時間の合間を縫ってデータ提供の作業をしてくださっている医療機関の皆様には大変感謝しております。

良質な教師データの作成

数ヶ月のデータ収集期間を経てようやく入手できたデータですが、そのままでは学習には利用できません。高精度なAI技術開発のためには、良質な教師データが必要になります。そのために、様々な工夫を行なっています。

データクレンジングの実施

データクレンジングは、フォーマットが異なるデータを同じ形式で使えるよう正規化し、重複や不適切なデータの修正・削除を行なうプロセスです。データは施設ごとにフォーマット、分類方法なども異なっており、そのままでは学習に利用できないため、データの正規化が必要になります。
また、不適切なデータや重複画像などの削除も行い、エンジニアが利活用しやすい形に前処理を行います。データクレンジングのプロセスもデータの品質を上げるための大事なステップになります。

アノテーションの課題

弊社エンジニアの菅原がご紹介した「画像解析AI開発におけるアノテーションツール」やCOO福田の「医療AIを上市するまで」にもありますが、画像解析AIの開発において欠かせないステップとしてアノテーションがあります。 

上記の記事でアノテーションは手間のかかる作業とご紹介していますが、医療機器としての販売を目標とする場合、数千枚、数万枚の医療画像を1枚1枚チェックしてタグづけをする必要があるため、膨大な労力がかかります。さらに病変などの確認には医学的に正しい判断が求められるため、高度な専門的な知識が必要になります。
そのうえで、アノテーションの要件を定義し、基準を揃える作業も非常に大事な作業です。専門医でも判断に迷うケースはあり、判断基準が統一されていない教師データを学習に用いると、検出基準もブレてしまい、AIの精度に大きく影響を与えてしまいます。
そのため、アノテーションの要件を定義し、基準の揃った良質な教師データを作成することが、精度の高いAIを開発するために重要なポイントとなります。

良質なアノテーション作成のために実施している事

大量のデータで質の高いアノテーションを担保し続けることは簡単なことではありませんが、LPIXELでは製品の仕様と目的に合わせて基準を設けた上で、ガイドラインを作成し、一貫性を持ったアノテーションを目指しています。数十人の医師と契約し、アノテーションの作業を依頼していますが、医師ごとにアノテーションの付け方や、所見の判断についてバラツキが生まれないよう、レビュー体制やアノテーターに対する定期的なトレーニングも導入することで、品質を管理する仕組みも構築しています。

ちなみにですが医療画像専用のアノテーションツールも独自で開発し、アノテーションの詳細の要件が満たせるよう、定期的に機能追加をしています。

ツール開発による効率化の試み

ここまでご説明した通り、データを利活用するには多くの時間や労力がかかりますが、LPIXELでは運用に合わせてデータ基盤構築の一環として、データベースや各種ツールを独自開発することで、効率的にデータを管理・運用できるような仕組みを構築しています。

例えばデータ収集の中で特に労力がかかるデータ抽出や匿名加工のプロセスについては、自動化可能な部分を一部ツール化を自社で行い、スピードアップに努めています。また、データクレンジングにおける不適切画像の自動特定・削除、アノテーションの検証なども自社でツールを開発することで、効率的に運用可能になりました。

全体的なデータ基盤構築の詳細については、また別の記事でご紹介したいと思います。

さいごに

元々データの整備は各エンジニアが実施していましたが、AI開発にはデータ管理が最重要とのことで、5年程前にデータ専任の担当をおき、その後専門の部門ができました。当初はデータ管理のルール、アノテーションガイドラインやデータベース自体もなく、データマネジメントって何をするの?というところから始まりましたが、課題をヒアリングしながら、効率的な利活用のために必要なタスクを一つ一つプロセス化し、必要に応じて各種ツールやデータベースを開発しながらデータマネジメントの基盤を整えてきました。

また、医療機関から貴重なデータをご提供いただいているため、法規制対応や契約管理は慎重に行ってます。AI開発の普及が高まるにつれて法律も改定されているため、社内での最新の法規制の周知に努め、会社全体での安心安全なデータの利活用を徹底しています。
 
LPIXELでは、外部企業との協業によるAI画像診断支援ソフトウェアの開発にも携わっており、その過程でもデータ管理は重要な鍵となってきます。社内で培ったノウハウを用いたサポートなども実施しておりますので、ご興味がある方はぜひご連絡ください。
 
また、データをご提供いただける医療機関や、アノテーションにご協力いただける医師の方も募集しております。ご関心をお持ちの方は、下記よりお問合せください。

文:杉江 紗緒里

関連記事