見出し画像

臨床疫学会シンポジウム「臨床疫学における教師なし学習を考える」に参加して

僕は学会で色々な発表を見たり人に会うのは好きなのですが、学会に出ると毎回『学会なんて碌なもんじゃない』と言っていた某T沢教授を思い出します。僕は言ってません。

先日、学会側が会員に講演などの謝礼を支払いできない?ということを知ったのですが、同じ講演をしているのに学会員である自分には謝礼がなく、学会員ではない人は謝礼がもらえるというシステムってやっぱり変じゃないですかね?世の中の学会はこれが当たり前というのが不思議でした。でも某学会はちゃんと別の形で謝礼くれたので、一概にダメということではないと思うのですが。

あと会場が分離されていたからなのか、臨床疫学会が以前よりこじんまりしているような印象を受けました。東大・京大SPHの先生方が中心になっているのですが、そこがずっとcoreな訳で。大きなレジストリや良い研究結果は当然自分の専門の学会で発表するだろうし、教育講演中心になっていくのかなとか、どうやって広げていくのかなとか、(外からやいのやいの言うのは簡単ながら)色々思いました。


それはさておき、今回の臨床疫学会では、いつもお世話になっている岩上先生にお声掛けいただき、教師なし学習を徹底的に考えるというシンポジウムで座長・演者を務めさせていただきました。川上先生と耒田先生というスター人材による講演で、正直もっとお二人の議論や今後の見通しなどをお聞きしたい内容でした。

特に川上先生のご講演は内容の濃さといい、質疑応答のクオリティといい、多くの参加者が刺激を受けたのではないでしょうか。やはり東大医学部を出て初期研修医をやらずに研究に専念し、30代で千葉大の教授になるような人はレベルが違うなと。解説も非常にわかりやすくて驚愕していましたが、「塾講師をやっていたので、講義は結構得意なんです」とのこと。納得。

話題になっていたunsupervised random forestはRでもPythonでも実装できそうな感じです。とりあえず手を動かせと講演で偉そうに話をしましたが、まだ動かせていません(反省)。

また最後に少し話題にあがっていた、時点ごとのデータを別の症例と見てクラスタリングしたあとにマルコフモデルを用いてクラスタ間の状態遷移モデルを作るという論文は下記をご紹介いただきました。

ちなみに耒田先生の講義はおそらくついていけない人が多いであろうことは、まあ想像していました笑。臨床疫学会の参加者にはどちらかと言うと古典的意味での臨床研究データ(claimsや通常診療範囲内のコホート)を扱う人が多い上に、臨床医でありながら臨床疫学・因果推論・オミックス解析までしている人が、ある程度の知識を前提としてゴリゴリの手法論を話してもついていける人は少ないだろうなと。でも僕の話で「なんか適当そうでいいな」と思われてもそれは困るので。

ちょっと時間マネジメントが上手にできなかった点は反省しています。


個人的には、Latent Class Analysis (LCA)はどうなんだという話が出るかと思ってましたが、当日は出ませんでした。飲み会で聞かれましたけど。

LCA vs. other cluster analysisの違いは下記スレッドによくまとまっていると思います。LCAはFinite Mixture Modelよりも広いクラスの統計的なモデルを含む(hidden markov modelとか)と解釈しますが、latent class modelというと統計的なモデルを背景に考えているというところ。

Latent class modelだとmulti-layerの(network similarityを用いた)integrationなどは無理じゃないかなと思うので、そういう意味ではunsupervised machine learningの出番じゃないかなと。統計的裏付けはないので間違っていたら教えてください。

ここからはTXP社の原先生に私見としてコメントいただいたことで、一部参考になるところを抜粋しました。

統計的に何かを分析する時には、「正解」となる基準が必要になるので、hidden markov modelみたいに明確に正解を考えることが出来るlatent class model以外には理論的に何かを言うのは難しいのではないかと(hidden markov modelの場合には、正解となるlatent classを示唆する変数が観察可能であるところから始まって、そしてlatent classとその変数の関係性に何らかの仮定を置いて分析を進める)。

また、機械学習の使用が本質的に影響を与えてくるのは、因果推論を行う時です。変数の数がサンプルサイズよりも大きい時などは機械学習的な手法(変数選択も含む)に頼りたくなるわけで、それはlatent class analysisでも他のclustering algorithmsでも発生する状況です。因果推論は、構成上「正解」が必要そうな気がするので、その正解次第で統計的な分析が可能になると思います。ただ機械学習でunsupervisedのクラスタリングをするところまでだと何も正解となる基準がないわけなので、理論的な判断は何も出来ないわけなのですが、その後にクラスタ分けされたクラスを使って何かしよう(例、因果推論して介入)と思ったら機械学習の難しさがたくさん出てくるように思います。

一つの研究でunsupervisedのにクラスタ分けされたクラスが提案されていて、次の研究でそのクラス分けに沿ってサンプルを分類して、そこから何かやるのならば、それはもはやそのクラスが新たな変数という扱いになる気がします。あとはどの方法が説得力があるかで、それは理論的には「正解」次第、practicalにはresearch community次第という感じですかね。

そもそもこの色々工夫して同定されたクラスはこれまでのバイオマーカーとかステージ分類とかよりも有用なの?みたいな話にもなってきます。unsupervisedのクラスタリングの研究はここが乗り越えられていない印象です。精度だけの問題では無いのが苦しいところです。Latent class modelの方が突破出来そうな気がしますが、latent class modelの方は既存の変数が既に代理指標となることがわかっているので、そしたら既存の変数で良くない?っていうところが辛いところですね。

ポプテピピック74話より(大川ぶくぶ。竹書房)

この記事が気に入ったらサポートをしてみませんか?