AIによるサッカーのレフェリングは実現するのか？

2019年12月18日 00:00

※こちらはスポーツアナリティクス Advent Calendar 2019の18日目の記事です。

はじめに

国内・海外、リーグ戦やカップトーナメントを問わずサッカーでは熱い戦いが繰り広げられますが、そこにどうしても付き纏ってしまう問題が、

”誤審”

です。2019シーズンのJリーグにおいても、地上波メディアの一般ニュースで取り上げられてしまうレベルの大きな誤審問題が発生しました。

DAZNやYoutubeで配信されるJリーグジャッジ「リプレイ」(以下、ジャッジリプレイ)のおかげで競技規則や審判の意思決定経緯などの情報がオープンに公開されるようになり、サッカーファンのジャッジに対する認識も変化が見られますが、付き物とはいえやはり誤審は無いに越したことはないです。そこで稀に目にする意見が、

”AIレフェリーに期待"

という見解です。職業柄、AIにやや過剰な期待を抱くステイクホルダーに対し地に足の着いた実現方法を提案する立場として、またS3級レフェリーライセンスを保有し競技規則に対して一定の理解がある人間として、どうしてもこの見解は「引っかかってしまう」ものがありました。

そこでこの記事では、サッカーのレフェリングにおいてもしAIとその周辺テクノロジーを活用するとしたらどのようなモデルが想定できるか、そして実現に向けてどのような課題が想定されるか考察を述べたいと思います。

考察の前提

(1)考察対象の判定項目

サッカーの競技規則は17のセクションから構成され、近年ではVAR適用時のプロトコルなど通常の競技規則に付加する形で追加されたパートもあります。今回の考察では12条の前半部分に定められている「不用意に、無謀に、または過剰な力で犯したときに直接フリーキックの対象となるファウル項目」に焦点を当てたいと思います。

(以下、Law of the Game 2019/2020日本語版12条より引用）

競技者が次の反則のいずれかを相手競技者に対して不用意に、無謀に、または、過剰な力で犯したと主審が判断した場合、直接フリーキックが与えられる：
◦ チャージする。
◦ 飛びかかる。
◦ ける、またはけろうとする。
◦ 押す。
◦ 打つ、または、打とうとする（頭突きを含む）。
◦ タックルする、または、挑む。
◦ つまずかせる、または、つまずかせようとする。

誤審のケースでは懲戒罰(警告・退場)やオフサイド、得点の有無等が大きな騒動となることが多いですが、サッカーという競技の性質を説明するうえで象徴的な項目がこれらの反則であること、またジャッジリプレイの2019年放送回で最も取り上げられた論点がファウルの有無であったことを踏まえ、こちらを対象とさせて頂きます。

(2)AIに期待するレベル

AIをビジネスなどの業務シーンで適用する際、人の機能を完全代替するのかあくまで補助的な示唆が欲しいのかにより求めるレベルは変わります。今回は、「人間の判断よりAIのほうが優れた判断ができるのでは」という期待への応答になるため、人間によるレフェリングの精度・スピードを最低限のレベルとすることを一つの期待目標として設定します。

(3)適用する技術

AIの技術は日進月歩の勢いで発展していますが、ここでは人間によるレフェリングの代替を想定し、起きた事象を視覚的に捉えた情報から、適切な判定の確率を推測することを想定します。このため、いわゆる画像認識や物体検出の領域で用いられる技術を用い、あらかじめ教師あり学習により学習させたモデルを識別器として使うことを前提とします。

この過程において、視覚的な情報以外に推測に有効でありかつ収集できる可能性がある情報源について有効に活用することも視野に入れます。

AIを活用したレフェリングモデル

今回は図に示すモデルを考えてみました。一つ一つ説明します。

(1)事象に関わる情報の取得

前提に従って画像(動画)の情報が必要となるので、カメラを用いて撮影します。現在の競技規則上の制約を踏まえると、フィールド内に入る必要のない固定カメラでボールが関与するシーンを中心に高解像度の画像を撮影する方法が最も現実的な選択肢と思いますが、ルールが改正されればドローンやスパイダーカメラでより至近から情報を取得することも考えられます。

複数視点の映像が望ましいと考えているのは、接触の有無を判定するためです。今回の考察で判定の対象としているのはいずれも「異なるチームの選手同士の接触」が大前提となり、この要件を満たしていない事象は例外なくファウル判定から除外されます。

また、補助的に選手やボールにセンシングデバイスを装着してもらうことで、位置情報や接触情報を採取するのもこのモデルの推論においては有効と言えるでしょう。選手の電子器具(ETS)装着に関わる規則は既に競技規則で定められており、認証基準を満たせば活用自体は選択肢として浮上すると考えますが、フィジカルパフォーマンスの測定と比較し、接触の有無を測るため数センチ単位の精度かつ高速な情報収集が求められることには注意が必要です。

(2)動画の前処理

後続する各種の分類器に投入するための前処理を瞬時に施す必要があります。PyTorchを用いた動画処理モデルに代表されるように、まずは動画をフレーム処理して画像化し、二値化・グレー化など必要な処理を施す必要があります。

前述の通り今回の処理においては、「異なるチームの選手同士の接触」有無を判断する必要があります。よくある前処理においては一律で人物を一括処理する前提で二値化等の処理を行うことがありますが、今回は最低でも、映っている人物の特定と、それがどちらのチームに所属する選手なのかを明確にするためのプロセスが求められることになります。

(3)人物の検出

前提条件である「異なるチームの選手同士の接触」を識別するため、人物検出の処理を行います。図中にはいくつかのメソッドを列記していますが、後続の分類処理に対し高い精度で判定する支えとなる手法のみを採用することが望ましいと考えられます。

例えばOpenPose等に代表される姿勢推定は、映っている人物の骨格を推定することができます。この推定結果を2Dまたは3Dの座標情報に反映した時、「接触しなければ物理的にあり得ない(＝異なる人物の骨格が1点でクロスしているなど)」ことを示せれば、推定結果を最終的な出力に活かせる可能性が高まります。

また繰り返しになりますが、人物の検出においてチームを識別することが求められます。かりに検出した複数の人物による接触が認められた場合であっても、それが同一チームである場合はファウル判定から除外しなければなりません。

(4)接触の有無判定

一連の処理を経て、いよいよ画像情報をもとに接触の有無を判定します。もちろんこれまでの処理で接触の有無が確定していればこの判定はスキップしても良いかもしれません。このプロセスでは、学習の段階で大量の画像データに接触の有無情報を付与したアノテーションデータを用い、実際の推論にあたっては単純に接触の有無を二択で判断することを想定しています。

活性化関数の種類にもよりますが、内部構造としては「接触ありP%：接触無し100-P%」という結果がリターンされる想定です。一定のラインで閾値を設定し、接触無しの確率が高い事象はこの時点でファウル判定から除外します。

(5)ファウルの有無・種類の判定

接触ありと判断された事象を対象に、ファウルの有無と種類を判定します。こちらも手法としては大量の画像データを学習させた分類器に通す方法となるでしょう。

課題のセクションで後述しますが、この判定の精度をいかに定義し、どこまでのレベルを求めていくかが一番の難所となります。これまでは事実が確認できればTrue/Falseを判断できる性質の処理でしたが、ファウルの有無と種類の判定は現行の競技規則において主審の裁量が認められている領域であり、一律に「Aだからファウル、Bだからファウルでない」といった設定ができません。ゆえに、経験則的に機械に学習させるしか方法がないと想定しています。

十分な精度のもとに判定ができれば、確率的に最も高い事象を結果として出力し、リターンします。その後のアナウンスについては本記事では詳細方法は触れませんがフィールド内部に通知役を置かないのであれば場内アナウンス等で対応する必要があるでしょう。

(6)その他

以上が今回考察したプロセスになりますが、現実的な運用を視野に入れた時、結果出力は事象発生から数秒以内にリターンされる必要があります。人間と同じレベルが最低限であり、実際のレフェリーは数秒(または1秒)以内に判断下しており、また近年導入されたゴールラインテクノロジー(GLT)も主審へのフィードバックを1秒以内として定めていることから、これらのスピード要件は必須と考えられます。

実現に向けた課題

ここまでサラッとモデルを紹介してきましたが、既にお気づきの方もいらっしゃる通り、このモデルの実現難易度は相当に高いと考えられます。実現に向けて条件を整理するというより、もはや課題しか見つからないレベルといっても過言ではないでしょう。ここでは主に2つの観点から課題を列挙したいと思います。

(1)技術的実現性

・画像の取得方法

最終的に十分な精度を確保できれば問題ないとはいえ、学習と実運用の両面において有効な画像(動画)の取得となると、中継映像アングルではなく事象にスポットを当てた動画の取得は必須でしょう。かつ、カメラのレンズから事象に至るまで障害物があってはならず、最低でもボールポジションをトラッキングする必要があるため、高度な物理的構造が求められることになります。

・判定精度

これは本テーマに限った話ではないですが、十分な精度を保持できなければAIに頼る必要はありません。本モデルでは画像認識による分類単体ではなく、物体検出や前処理、センサー等他のデバイスからの情報を組み合わせることで、最後の判定分類器が事象の選択のみにできる限り集中できる仕組みを考えましたが、これでも実判定に適う精度要件を満たせるかどうかはわかりません。学習プロセスにおいて誤差を収束できるか否かは、用いるデータの質にも左右されるでしょう。

・処理スピード

前述の通り極めて高速な処理が求められます。LIVE映像からの物体検出や姿勢推定などは既に実用化されている技術があるとはいえ、複層的に重ねて組み合わせたモデルがサッカーの判定スピード要件に求められる数秒以内の出力を満たせるかどうかは実際の検証が必要でしょう。もちろん、モデルの内部構造だけでなく処理するハードウェアや映像を伝達するネットワークにも依存します。

(2)サッカーの競技性質

・判定基準

モデルの紹介では簡単に触れるにとどめましたが、今回判定項目の対象とした「不用意に、無謀に、または過剰な力で犯したときに直接フリーキックの対象となるファウル項目」はファウルの有無と種類の判定は現行の競技規則において主審の裁量が認められている領域です。実際に起きた事象に基づいて判断するより「起きた事象を不用意と主審が判断したらファウル(または無謀・過剰な力)」といったほうが適切でしょう。サッカーの試合を見ればわかる通り、蹴られたりタックルを受けるだけではファウルにはなりません。この問題は大量の画像情報をもとに審判経験者の知見を借りながらアノテーションデータを作成して何とかするしか方法はないと思いますが、この議論の過程(精度の定義)においても相当に議論は紛糾するでしょう。

なお、本モデルで対象外とした判定項目の中には、競技規則には定義されていない暗黙の慣習的判定基準もあるため、頑張って機械に落とし込もうとすればするほど、機械の性質とサッカー競技性質の相性の悪さを実感することになるでしょう(それがサッカーの面白いところではありますが)。

・根拠・納得性

仮にAIが求められる精度要件を十分に満たす判定を下せるようになったとしても課題は残ります。今回検討したモデルでは画像の分類器をはじめそれなりの表現力が求められるので、内部の層構造は深くなることが予想されます。このディープ化したモデルが下した判定について、根拠を求めることは極めて難しいです。そうなると、「AIが経験則的に判断したから」というのが唯一の理由になりますが、果たしてこれで選手は納得感を得られるでしょうか？

この問いについては「AIという機械が下した判定だから割り切れる(割り切るしかない)」という見方もあると思います。一方で、人間の審判であれば選手当事者が異なる解釈をした事象についても、「自分はこう見ましたよ」と説明することが可能です(正しいかどうかは別として)。単に判定を下すまでであればAIレフェリングも可能かもしれませんが、その後のプレイヤーマネジメントを考慮すると、実用化するには厳しいかもしれません。

おわりに

以上が考察となります。最初に立てた「AIによるサッカーのレフェリングは実現するのか？」という問いに対する自分自身の見解は「技術的・競技性質的に課題は多い」となります。この考察を経てお伝えしたかったことは、

"事実以外に主観要素が基準となるサッカーの審判はAIと相性が悪い"

という見解です。

とはいえ将来的な技術の発展と、近年の競技規則改正に見られる客観的事実に基づいた判定割合の増加傾向により、AIでも十分に実用的なレフェリングができる可能性はあると考えます。また今回のモデルとは別の技術的な仕組みや、今回設定した前提とは別の条件下で考察される仕組みであれば、誤審撲滅とまでは言わずともより望ましいソリューションが生まれる可能性も十分に考えられるのではないでしょうか？

今回の考察にあたっては時間の制約で先行研究等に触れることができなかったのですが、機会を見て海外の研究や議論の経緯、他分野の参考事例なども情報収集しつつ、より良い形とは何かを研究し続けたいと思います。

以上

この記事が気に入ったらサポートをしてみませんか？