見出し画像

統計非専門家による統計解析~本当にこれで合っているの・・・?~

医療系に限らず、統計解析を必要とする職種、研究テーマは多岐にわたる。しかし、どれだけの人間が統計解析に造詣が深いかと言うと疑問である。私のように必要に迫られてなんとなく統計解析を開始した人間の多くは、t検定をおそるおそる実施することから始めるのではないだろうか。
近年、RやPythonを無料で開始出来ることやChatGPTの開発により、データサイエンスもどき、の敷居はかなり低くなった。教科書や論文を参照しなくても、やりたいことに対してのサンプルコードを簡単に生成してくれるからだ。しかし、それらが適切な手法を取られているかどうか検証可能な人間もおらず、Factチェックは曖昧なまま突き進んでいるケースも多いと思う。

本noteでは、自分が本当にこれで良いのか疑問に思いつつも、結局よくわからないまま時が過ぎていった内容について記載したい。むしろコメント等で指摘いただけると大変に嬉しい。


seed

seedを設定するタイミングとしては階層型クラスタリングやumapといった作業時だった。seedとは、複雑な工程の際に、結果を一定に保つための魔法の呪文のようなものだ。このようにseedの意味はあまり理解せず、よい結果が出たseedを控えておくといった程度にとどまっていた。
適当に誕生日を入れたりして、「さすが俺の誕生日、いい結果が出るな」なんて思っていた。
しかしどうやら、seedに関して検討した報告もあるらしい。詳細は下記ブログを参照して頂きたい。

しかし、seed値を含むスクリプトを要求されるjournalはそこまで多くないため、頑張って打ち込んだseedが日の目を見ることはほぼない。どうやってseedって決めればいいのかは自分にとって謎のままだ。

ハイパーパラメータと過学習

shapスコアを出してみようと思ったことがある。

この解析において、学習の回数等を規定するためのパラメータを設定することが出来、ハイパーパラメータと呼ばれている。これがまったくわからなかった。機械学習の弊害として過学習と呼ばれるものがあり、それを防ぐためにも設定が必要らしかった。
何やら結果のようなものは出るが、それが妥当なのか、過学習を来しているのかもわからない。そもそも、この手法に耐えうるdatasetの構造なのか、検体数は充分なのか・・・

これらはChatGPTに聞いても、はっきりとは答えてくれない部分だった。

データサイエンスは甘くない。でも、論文は何とかしたい

みなさまは上記のように考えているのではないだろうか。当然、目新しい手法で良い結果が出た方が、自分も嬉しいしウケがいいだろう。ただ、よほど信頼できる上司や指導教官がいない限り、あまりにも不慣れな手法で進めていくのは危険だと思う。エセデータサイエンティストに誰でもなれてしまう時代、自分の守備範囲内で仕上げる工夫、守備範囲を広げていく努力が肝要と思う。


この記事が気に入ったらサポートをしてみませんか?