「整体ってエビデンス無いよね」に適切に反論できるようになるnote

花田隼人｜北海道若手治療家コミュニティ

2023年8月30日 14:47

みなさんこんにちは。
北海道若手治療家コミュニティの
花田隼人（@hokkaido_wakate）です。

本記事は、非科学的で非現実的な効果を謳う、危険かつ詐欺まがいな施術を擁護するものではありません。…ということを、予めご理解ください。

「脊柱管狭窄症は
　○○筋を緩めましょう！」

みたいな
治療家のSNS発信には度々、

「何かエビデンスとかあるんですか？」

という、
正義の皮を被った
噛みつきにくる反応を
寄せられることがあります。

ですがそもそも、

「エビデンスとかあるんですか？」
という発言をする人の多くは、

臨床統計について
そもそも認識を誤っているのではないか？

…という疑念を
花田はずっと抱いています。

ですので、
「エビデンスあるの？」とかいう前に
知っておくべきことを
ここに書き記しておきます。

臨床統計に興味があるあなたへ

間違いなく断言できるのは、

臨床統計について
学んだことがない方であれば、

治療家が読むことを想定して書いている
僕のこのnoteがどこよりも一番
入門としては分かりやすいです。

ちょっと調べれば分かるのですが、

臨床統計について記載してある
多くのホームページやブログは、

臨床統計について学んできた人が
分かるようにしか書いていないため、

我々のような部外者が立ち入るには
画面上に踊る難解な専門用語がキツすぎます。

なので今回は、
臨床統計の超基本的な考え方をベースに
「エビデンスは？」勢に対する
反論材料を得ることをゴールに、

こちらで分かりやすく
噛み砕いて解説していきます。

「エビデンスとかあるの？」と言われたら

ぜひこのnoteへのリンクを
リプライでお返ししてください。

それでは参りましょう。↓↓

エビデンスに対する誤ったイメージ

「エビデンス」というと、

「○○人に○○をしたら
　○○人が改善しました！」

…みたいなものを　
イメージされると思います。

そもそもエビデンスとは、

医学および保健医療の分野では、ある治療法がある病気・怪我・症状に対して、科学的に効果があることを示す根拠となる検証結果・臨床結果を指す。

wikipedia

…とWikipediaにはあり、
検証結果の信頼度を指す
「エビデンスレベル」を問わなければ、
検証結果全般を指す言葉です。

よりエビデンスレベルの高い
臨床統計をするためには、

統計する事柄について
特性を先に洗いだし、
複雑な計算式にあてはめることで

「必要な症例数（サンプルサイズ）」を
算出するところから始まります。

統計はただ取ればよいものではなく、
適切なサンプル数が必要だということです。

この必要なサンプルサイズに沿って、
臨床研究に協力してくださる
患者様を集め、

実際の薬を投与する
「何かをする」グループ（介入群）と、

偽薬を投じるなど
「何もしない」グループ（対照群）に分けて、

その結果を研究するのが
実際に新薬のリリース時に行われている
臨床研究のプロセスです。

行き当たりばったりに、
とりあえず確保できた人数や
目の前にたまたま現れた患者を
対象にするわけではなく、

”非常に計画的に行われるものなのだ”

という認識を持っていてください。

必要なサンプル数を決定づける要素

必要なサンプルの数は、
実験しようとしているものが
どのような性質をもつかによって
大きくも小さくもなります。

基本的に多くの臨床研究は
過去の類似した実験結果を参考に
これらを決定していくことになります。

※整体分野に
そんなものはほとんど無いか、
圧倒的にサンプルのサイズが
小さい研究がほとんどです。

サンプルサイズを決定する要素は

・効果の大きさ（効果量）
・平均からの逸脱具合（ばらつき）
・まぐれアタリが起こる確率（αエラー）
・まぐれハズレが起こる確率（βエラー）

の４つです。

ひとつひとつ解説していきます。

効果の大きさ

専門用語で「効果量」
または「群間差」と言います。

効果量とは
「サンプルサイズに
　影響されない関係性の強さ」
のことです。

と言ってもよくわからないので、
簡単に解説します。

「ハイター」と呼ばれるような
次亜塩素酸ナトリウムを食器にかけると
ほとんどの菌やウイルスは
死滅させることができますよね？

しかし、
同じ食器にコーヒーをかけたら
菌やウイルスは死滅するでしょうか？

死滅する奴もいるかもしれないですし、
ほとんど死滅しないかもしれません。

これを介入群と対照群で実施した場合、
次亜塩素酸ナトリウムをかけた方は
明らかに何もしない場合に比べて
殺菌される結果となるのは明白です。

つまり介入群と対照群との間に
大きな効果の差（群間差）がある
ということです。

こういった性質があるものであれば、
少ないサンプル数で十分に
結果が見えてしまうので、
サンプルサイズは小さくて済みます。

しかしコーヒーをかけた方はどうでしょう？

何もしない対照群と
あまり大きな差がない
可能性が高いですよね？

わずかに差があるかもしれませんが、
本当に意味のある差なのか？
それともたまたまなのか？を
よく見極めるためには、

サンプルの数を増やして
同じ、あるいは似たような実験を
たくさん実施して確かめなければなりません。

ですから、
「効果の量」が
小さければ小さいほど、
大きなサンプルサイズが必要となり、

効果量が大きければ大きいほど
サンプルサイズは小さく済むというわけです。

例えば、

ペインスケール１０が０になるような
明らかな変化を見せる治療があれば、
１０人中５人がそうなったといわれたら
「すごい施術だね」となりますが、

ペインスケール４が３になる程度の
効果の小さい施術であれば、
１０人中５人程度の結果では
「たまたまじゃない？」と
疑いたくなるということです。

ペインスケール４が３になる
効果の小さい施術であっても、
１００人、１０００人と分母を増やせば
「効果がある」と認めやすいですよね？

効果の量が小さければ
大きなサンプルのサイズが
必要になるということです。

平均からの逸脱具合

専門用語で「ばらつき」と言います。

例えば、
ペインスケール１０の人に施術をして、
全員が１０→５の変化が出るならば、

少ないサンプル数でも
「この施術では痛みが１０→５になる」
という結論が見えてきます。

しかし、
１０→１まで下がる人もいたり、
１０→１０のまま変わらない人もいたりと
結果の上限と下限近くのレンジにも
ボリュームが重くなるようであれば、

たくさんの症例数を重ねて
平均がどこに落ち着くのかを
正確に確認する必要が出てきます。

この前者を
「ばらつきが小さい」

後者を
「ばらつきが大きい」

と表現します。

「人による」
「状況による」
「気分による」
といったような、

結果が様々な要因によって
左右されやすい性質をもつものほど、

つまり「関連要素が複雑な事象」ほど
ばらつきは大きくなると言えるでしょう。

例えば、
一般的に痛みは
「硬くなると痛くなる」
「柔らかくすると痛くなくなる」
というイメージがあります。

しかし臨床では
そうならないケースも多々あります。

「硬くないのに痛い」
「柔らかくなったのに痛みが減らない」
そういった場面です。

これは痛みに影響しているものが
「柔軟性」の他にも存在していることを
示唆しており、

整体臨床では
このような「単純ではない変化をする」
現象によく遭遇します。

このような特性を持つ
整体は「ばらつきが大きい」結果となりやすく
正確な検証にはサンプルのサイズを
大きくとる必要が出てきます。

まぐれアタリエラー

正確な研究結果を出すためには、
地球上のすべての人に
実験をするのがもっとも正確です。

しかしそんなことは

「新型コロナウイルスワクチン」

のような
世界的な騒ぎにでもならないと
現実問題実行不可能です。

そこで
地球全体の人や、
特定の疾患を持つ全患者を
「母集団」と位置付け、

そこから扱いやすい人数を
「標本」としてランダムで抽出し研究します。

そして標本から得た研究結果は、
きっと母集団でも認められるだろうと
推測を立てる統計が「推測統計」です。

しかし
このような統計の取り方をすると、

標本で得られた実験結果が
母集団では当てはまらなかった

というエラーが必ずどこかで
発生してしまいます。

実際にはほとんど効果がないのに、
効果がたまたま見られる群に
出くわしてしまった。

その結果、
効果がない薬を世間にリリースして
たくさんの人に損をさせてしまう可能性は、
臨床研究をするうえで常に存在します。

そんな、
まぐれでアタリを引いてしまうエラーを
「αエラー」と呼びます。

例えば、
「呪いを解くと下痢が治る」という
治療の理屈があったとします。

これはアメリカ南部の
「呪いによって体調不良が起こる」とする
文化を持つ一部地域に息づく伝統医療の形です。

この地域の人たちを標本として
「呪いを解くことで下痢を治す」という
臨床研究をやったとすれば、
ポジティブな結果が得られるかもしれません。

しかし、
これを地球全体の母集団に広げたとすれば
実際には効果がない可能性が高いでしょう。

これが「αエラー」です。

ですから
なるべく標本の抽出は
無作為でなければいけませんし、

得られた結果が
エラーによるものか確認するために、
何度も臨床統計を取り直す必要があります。

まぐれハズレエラー

逆に、
母集団では効果が見られるはずなのに、
標本ではたまたま効果がみられず、
「母集団においても効果がないだろう」と
推測されてしまうエラーを

「βエラー」と呼びます。

効果のある薬が
効果が無いことにされてしまうので、
薬が流通しなくなることによって
必要としている人に不利益が生じます。

例えば、
足関節捻挫の急性期に対して
アイシングをすることで、

仮に人類全体的には除痛効果と
治癒促進効果がみられる
はずだったとしても、

一医療機関に来院した
数十人の捻挫例を標本として、
「アイシングはかえって治癒を遅らせる」
という結果を取り上げて論文にして、

「最新の論文が出たぞ！」となって
業界に広まったとしたら、
アイシングについて
偏った理解が広まることになり、

結果として
社会全体が不利益を被ることになります。

これが「βエラー」です。

このαエラーとβエラーの概念は
ここまで述べた通りですが、

現実では
「母集団」に効果があるのかどうか
分からない状態で標本を抽出して
臨床統計を取りますので、

標本で得られた結果が
本当に正しい結果なのかは、
非常に慎重な検討が必要になるところです。

つまり
「αエラー」「βエラー」が起きやすいものは
サンプルサイズを大きくしなければ
信頼度の高い結果は
得られないことになります。

整体分野でサンプルを考える

さて、
サンプルのサイズを決定する上で必要な
性質について解説してきました。

これらの性質に
整体を当てはめるとどうでしょうか？

群間に差が大きく出るかどうかですが、
問診をして説明をしただけで
痛みが減ってしまうこともあります。

多くの痛みは自然に軽快するものですし、
そもそも「何もしない」対照群にも
変化が出てしかるべきです。

実験の性質上、
介入群には「治療をしてもらった」
対象群には「何もしていない」
という患者の意識がありますので、

対照群には
別の施術を提供したとしましょう。

例えば鍼や骨盤矯正、筋膜リリースなど
同じ痛みに対する徒手介入には
様々なテイストの手法が存在するのに、

どの手法を選択しても
最終的には治ってしまいます。

つまり「痛み」を扱う整体分野は、
介入群と対象群で
差を生みにくいと考えられるため、
サンプルサイズは大きくなってしまいます。

また、
施術の結果にばらつきが大きいのが
徒手介入の特徴でもあります。

同じような痛みに
同じような介入を施しても、
ものすごく良くなる人もいれば、
全く変化がない人もいます。

「痛み」は複雑系ですので
同じような負担を受けていたとしても、

集中している時は痛くなかったり、
楽しい時は痛くなかったり、

痛みを感じるかどうかには
器質因以外の複雑な要素が相互に関与します。

施術の結果も同様で、
効果を感じるかどうかについては
どうしたって
「ばらつき」が出てしまうものです。

「ストレッチは良いもの」
「運動は良いもの」
「マッサージは良いもの」
と一般に認識されているように、

体に何かしらのポジティブな変化が
平均的に起こりやすい
とされている施術であっても、

整体の臨床では、
「多くの人に効果が出るストレッチなのに
　なぜかこのクライエントには効果がない」
といった現象が平気で起こります。

全体には効果があるのに、
目の前の患者には効果がない。

これは「βエラー」に相当します。

「βエラー」が生じやすいものは、
サンプルサイズを大きく取らなければ
信頼度の高い臨床統計にはなりません。

つまりこのように、
整体臨床を臨床統計で扱おうとすると、
意義のある結果を示すためには
サンプルとして確保すべき
症例数が莫大になってしまいます。

わずかな結果だけでは

「まだ出会ったことのない
　どこかの誰かさん（母集団）にも
　おそらく効果があるだろう」

…とは推測できないわけです。

高齢者への投薬試験

では実際に、
臨床研究の場合はどの程度の
サンプル数を設定されていることが多いか？

という点についてです。

これも一概に
「●●●人分あれば
　母集団と相違ないと考えてよい」
といった明確な決まりはありません。

研究結果と違う反応が生じる可能性は
どこまで行っても
「ゼロ」にはできないからです。

従って臨床統計の決まり事として、
多少の誤差（αエラーやβエラー）が
どの程度許容できるかを事前に設定しておいて、

想定される範囲に結果が収まる薬を
新薬などとしてリリースすることになります。

参考：厚生労働省の文書からヒントを得る

同じ医療分野から
薬物の臨床実験を参考にしてみましょう。

どちらも体に介入して
身体的変化を起こそうとするわけですから
的外れな参考材料にはならないはずです。

参考資料として、

「致命的でない疾患に対し長期間の投与が想定される新医薬品の治験段階において安全性を評価するために必要な症例数と投与期間について」

という長い名前の文書データが
インターネット上に転がっていました。

平成７年の資料なので
ガイドライン自体は
おそらく古いものですが、

薬を承認する上で
どのくらいの症例数を
相場としているか？の
参考に読むと、こう記載されています。

４．これまでの情報では，ほとんどの有害事象は，投与開始後最初の数カ月の間に発現し，またこの期間での発現頻度が最も高い。治験薬を予定される臨床用量で６カ月間投与する症例の数は，投与期間中の有害事象の経時パターンが明確に把握できる規模に設定する必要がある。このためには，妥当な頻度（一般的には０．５～５％程度）の遅発性の有害事象が観察できるとともに，より高頻度に発現した有害事象がその後の期間中に増加するのか，あるいは減少するのかを観察できるだけの十分な症例数が必要である。通常３００～６００例の対象症例数が適当である

致命的でない疾患に対し長期間の投与が想定される新医薬品の治験段階において安全性を評価するために必要な症例数と投与期間について平成７年５月２４日薬審第５９２号（各都道府県衛生主管部（局）長あて厚生省薬務局審査課長通知

上記は、
薬を６カ月間服用させる場合に
有害な事象が生じないかを
確認するための症例数ですが、

３００から６００例
必要になるわけです。

さらに文献の内容は以下のようにも続きます。

５．一般的ではないが，有害事象の中には投与期間が長くなるにつれて発現頻度または重症度が増すものがあり，また投与開始後６カ月以上経って初めて発現する重篤な有害事象もある。従って，治験薬を１２カ月間投与して得られた成績も必要である。有害事象と投与期間の関係についての十分な情報がないため，１年間の経過観察を必要とする症例数は，一定の発現率の有害事象を発見する確率と試験実施の実現性に基づいて判断されることが多い。１００例の患者に対して最低１年間投与して得られた成績は，安全性データベースの一部として採用できると考えられる。そのようなデータを得るためには，治験薬を予定される臨床用量で少なくとも１年間投与するように適切に計画されたプロスペクティブな試験を実施すべきである。１年間の投与期間中に何ら重篤な有害事象が認められない場合には，そのような有害事象の１年間の累積発現率は３％未満と考えてよい。

以上が１年間投与する場合の
有害事象に対する研究についてですが、

１年間投与して実験をするのであれば
１００例が必要と示されています。

そして短期的な投与を含めて、
総合して治験されるべき症例数は
以下のように記載があります。

６．市販後調査により安全性に関するデータが収集されることも勘案して，短期投与も含め，治験薬が投与される総症例数は５００～１，５００例程度が望ましい。

総症例数で５００～１，５００です。

この数をもってようやく、
薬は世にリリースすることが
できるというわけです。

治療院の利用者数から考える症例数

さて、
サンプルサイズの決定に
影響する要素についてや、

実際に新薬をリリースする際に
必要な治験数を述べましたが、

果たして現実問題、
いち治療院で用意することができる
サンプルサイズはどの程度でしょうか？

ここで資料を提示します。

こちらは、
各都道府県の整骨院数と人口をもとに

整骨院が
常にどのくらいの患者を抱えているか
理論上算出したものになります。

J-Net21さんが
整骨院の利用状況について
統計を取った数字を公表しており、

「よく利用している」と回答した数が
全体の４％であったため、

１院あたりの人口に４％を掛けた数字を
表に記載しております。

これを見ると整骨院に
「よく利用する」レベルで来院するのは
せいぜいどの院も１００人がいいところです。

つまり多く見積もっても
１００人程度のなかから
サンプルを用意しなければいけませんし、

そのサンプルをさらに
「介入群」と「対照群」に分けて
群間の差を見極める必要があります。

さらに標本の条件を変えながら
何度か確認をすることで、
αエラーやβエラーによる結果ではないことを
示していく必要もあります。

整骨院には
様々な症状を訴える方が来ますので、

１００人来院するといっても
全員が研究対象としている
特定の症状とは限りません。

腰痛について治療院レベルで
１，５００人に対する臨床研究をして
意義のあるエビデンスを示そうとするなら、

仮に毎月変わる１００人/月の患者がいて、
年間１，２００人の方が来院したとしても、

腰痛の有病率３０％をかければ４年経っても
まだ１，５００人には届きません。

いち治療院レベルで
治療家ひとり二人レベルで
「信頼度の高いエビデンスを作る」
というのは土台非現実的な話です。

「エビデンスは？」勢に言いたいこと

医療に対する姿勢

「エビデンス」の有無について
確認する習慣をもつことは、
知識のアップデートになりますし、

業界にはびこる「ヘンテコ治療理論」の
流布拡散の抑止力になっているといえます。

常に科学を追求して、
根拠があり、
なるべく安全で再現性が高い
医療を患者に提供しようという姿勢は、

医療関係者として非常に大切な
心構えだと思います。

そこに異論は全くございません。

エビデンスを確立するメリット

しかし、
「EBM」の最たる存在ともいえる
「医薬品」がこれを実現できているのは、

「特許」という
経済的保護があってのこと
という社会背景も忘れてはいけません。

効果のある薬を製薬しても、
その薬による利潤の獲得権を
特許によって保護されなければ、

エビデンスがしっかりとした
質の高い薬は生まれにくいはずです。

治療院業界に「特許」は
ほとんど縁のない話です。

何なら「徒手療法」シーンの多くは
「EBM」の「M」
「Medicine（医療）」であるのかどうかさえ
正直怪しいのが現実です。

長い年月と労力と大金を費やして、
エビデンスを獲得しにいく
経済的メリットがあまりないのも、

整体業界において
「EBM」が浸透しない
社会背景なのではないかと
花田は感じます。

個人で研究をすることの是非

エビデンスを作るには
「治験」を行う必要があります。

治験のためには
「被験者」の協力が必要です。

大きな病院であれば、
治療の一環として新薬の治験に
協力を促すこともあるでしょうし、

治験の協力者として参加する
高額なアルバイト業も存在します。

その多くは、
製薬会社側や患者側が合意のもとで
時間とお金と体を
お互いに差し出すことによって
成り立っています。

果たして同じことが
治療院で行えるでしょうか？

治療院という環境において
腰痛や、骨折、捻挫、不調、
スポーツでのケガに対して、

「臨床研究として治験を行う」
ということが許されるでしょうか？

治療院、接骨院、整骨院は
臨床研究用の施設ではないのですから、

個人の経験則にとどまらない範囲で
広く活用される「研究」を

治療院で行って良いのかどうかは
その是非についてよく検討が必要かと思います。

どこかの大きな
大学病院にて被験者を集めて
鍼灸や整体のエビデンスを
確立しようにも、

まずどう考えたって
お金がかかることですし、

参加・企画した人が
それに見合う金銭的な
リターンを得られるかは不明です。

そして実際にそんな大々的な
エビデンス確立作業が
仮に業界でなされていないとしても、

あくまで末端で患者と接している
「いち鍼灸師」「いち整体師」に、

さすがに
そこまで大きな責任を負わせるのは
話が違うのではないかと
花田は思います。

数字に対する規模感覚

治療院が抱えられる
患者人数について先述しましたが、

「エビデンス」として
信頼度をもって語れるに相当する
規模のサンプル数の用意は、

いち治療家個人の環境では
どうしたって難しいのは
述べた通りです。

だからこそ、
「根拠なく適当な発信を流布するな」
とも言えますが、

エビデンスを求める側も、
「話の規模感をよく考えて指摘すべき」
というケースは割とSNS上で見かけます。

本当に何でもよい、
弱いエビデンスでよいのであれば、

「昨日１０人に同じことをやって
　７人に効果が出ました！」

というのも
立派なエビデンス（証拠・裏付け）です。

でもそれでは
恐らく納得を得ることは難しいでしょうから、

するとつまり、
「エビデンスを出せ」という側が求めているのは
単なる「根拠」ではなくて、

「権威性のある誰かがリリースした
　エビデンスレベルの高い
　既出の論文の存在」

なのではないかと
いつも見ていて感じます。

それは本当にEBMなのか？

例えば、
「エビデンスを示してください」
と根拠を求めに行った際、

その方個人で集計している
臨床成績が示されたとします。

弱いながらも、
これも立派なエビデンスの一部です。
何度も言いますが「弱い」ながらも、
根拠であることは確かです。

むしろそんな統計を
独自で取っているところに、
臨床への真摯な姿勢すら感じます。

しかしたまに
こんなことをいう人がいます。

「既出の論文ではありますか？」
「それを論文化して発表されていますか？」

この「無い」ことを前提に
相手をやり込めようとする意図が
初めから丸出しな方も
残念ながらいるわけです。

「はい、これです」と出したら
納得でもしてくださるのでしょうか。

結局のところ、
そういう方がやりたいのは
「EBM」でも何でもなくて、

ただの
「論文PDF至上主義」であり
「既出文献依存主義」なのではないかと
花田は思うわけです。

もはやその論文の内容が
どのように標本を抽出していて、
どれくらいの被験者を用意していて、

その結果が
標本に含まれなかった母集団にも
認められると推測してよいものなのか？

といった視点も何もなく、

「論文化されている」
「文書化されている」
「既出の文書である」

ということに
信頼を寄せているのであれば、

それはもはや
「科学の奴隷」ではないかと
花田は考えてしまいます。

結論

医薬品を参考例にすれば、臨床統計は１０００症例ほどのサンプルサイズが一般的。
整体は複雑系の要素が大きいため、意義のある統計結果を示すためには、膨大なサンプルサイズが必要になる。
そしてそれは、いち個人レベルでは現実問題不可能な数である。
治療院は臨床研究用の施設ではない倫理的問題と、エビデンスを確立しても権利保護が得られない経済的問題がある。

↓

つまり言いたいのは、

「整体」や
「徒手での慢性痛治療」を
“エビデンス”の物差しで測るのは
そもそも不適切であり、

そのエビデンスの無さを
末端の治療家に求めるのは
お門違いであって、

要するに、

「話の規模感くらい理解して。」

ということです。
　

以上が今回
僕が書きたかったことになります。

皆さんはどのように感じましたでしょうか？

その思いのどれもが
「一理ある」もので、

それは一概に正解や不正解とは
断じがたいものかと思います。

何かのきっかけに
なれましたら幸いです。

最後までお読みいただき
ありがとうございました。

▼オススメ！！

【北海道若手治療家コミュニティ】

花田の発想やアイデア、知識を、いち早く、ボリュームのある内容でお届けしているFacebookグループ「北海道・若手治療家コミュニティ」にぜひご参加下さい。花田のコラムを無料で閲覧可能です。

必要なのは
Facebookのアカウントだけ！

▼コチラから花田に「投げ銭」が出来ます。いただいたお気持ちは、次回コンテンツに使用する有料画像素材の購入や、文献準備代に充てさせていただき、より良い発信づくりに役立てさせていただきます。