グラフとバンドとデジタルデータ

ここ10年で、論文の図に占めるグラフの割合が増えたと思う。体感として。

私は、手法的な区分でいえば分子生物学や細胞生物学と呼ばれる研究領域にいて、その他にも個体を使った実験に足を突っ込んでいる。
生物学の真ん中あたりだ。
中心という意味ではない。
学問領域には中心も何もなく、それぞれに興味を持ってやっているものが連携し広がっている。
だから中心ではなく他の学問からの距離がちょうど中間くらいという意味だ。
より基礎的な学問であり生物学の基盤をなしている、物理学や化学からの距離がちょうど中間くらい。
もっと物理に寄ればそのまま生物物理と呼ばれる領域になるし、化学に寄れば生化学だ。
生物物理、生化学、分子生物学、細胞生物学の順に物理・化学からの距離が離れていく。
さらに離れれば、マウスやハエなど個体をまるごと使った様々な領域があり、その向こうには生態学・行動学などが見えるだろう。

物理学に数学はつきもので、現象を記述する際に必ず使われる。
液体の動く様子は流体力学としてきちんと定式化されているし、専門外なので適切な他の例を思いつかないが、まあそれぞれの現象にそれぞれの数学モデルがある。
現象を数式に当てはめるためには、とうぜん現象を数値化しなければいけない。
水が流れる速さとか、水の粘性だとか、必要な数値を計測する。
数値を得るために実験をする。

しかし分子生物学において数値化は必須かといわれるとそうでもない。
少なくともひと昔前までは。

例えば遺伝子Aが細胞の形を決めているとしよう。
遺伝子Aがないと細胞はつるりと丸くなり、あるとトゲトゲになるとする。
昔は細胞の形などは数値されていないことのほうが普通だった。
写真を撮って並べ、図として論文に載せる。
明らかにこっちのほうがトゲトゲしてるでしょ?といえればよかった。

もっと顕著な例としては、タンパク質の量も数値化されないことが多かった。
特定のタンパク質を検出する方法としてウエスタンブロットという古典的で有名な方法がある。
今でも現役で使われ続けていている。
細胞内には何千種類ものタンパク質が存在するが、その中から1種類のタンパク質だけを検出してその量を調べる方法だ。
簡単に方法を説明すると、白色の薄いシートに、細胞や組織から取り出したタンパク質液を染み込ませてから、目的のタンパク質だけを光らせる。
(本当をいうと、シートにタンパク質を染み込ませる前に、寒天みたいなゲルに電圧をかけてタンパク質を種類ごとに分離するし、シート上のタンパク質に抗体を結合させるのだが、ややこしくなるので端折る)

ウエスタンブロットを行うと、結果としてシート上にタンパク質の「バンド」が見える。
音楽のバンドではなく「帯」のほう。
タンパク質の存在する場所が、バーコードの一つの線のように長方形に光る。
それをバンドと呼ぶ。
バンドが大きければタンパク質がたくさんあり、小さければ少ない。
コントロールではバンドが大きく、別のある条件では小さければ、その条件でタンパク質が少ないことを意味する。
さて、それではこのバンドの大きさを数値化するのかといわれれば、昔はしていないことが多かった。

細胞の形が丸いかトゲトゲしているかといった形状・性質のちがいならまだしも、タンパク質の量はもっと単純なパラメーターで数値化するにはバンドの面積を測定すればいいだけだ。
それでも見た目で明らかにバンドの大きさが異なれば、それでよしとされていた。
定性的な結果で十分であり、定量化の意識は低かった。

しかし最近ではより正確な結果の記述が求められ、細胞の形もタンパク質の量も数値化される。
だからグラフがどんどん増える。
量を示すための棒グラフ。
時間経過と量の関係を示す折れ線グラフ。
割合を示す円グラフ。
牧歌的なグラフでも、グラフはグラフだ。
図のほとんどがグラフ、という論文も増えた。
細胞の写真やウエスタンブロットのバンドは図に掲載されず、数値化しまとめたグラフだけを載せる。

数値化・定量化がより求められる原因は、生物学をより正確な学問にしようという流れの他にデータ量の増加があるように思われる。
実験機器が進歩し、たいていの測定装置はコンピュータに接続され結果はデジタルデータで吐き出される。
デジタルデータは量が多くても保存や処理などが行いやすい。
機器の進歩に伴い、たくさんのサンプルを処理できるケースも増えた。
だから大量のデータを出して、それをまとめて解析する。
量が多いので一つずつ目で見比べるのが困難だし、そもそもコンピュータ上にデータがあるのだから数値化して解析するほうが自然だ。
こうして生物学の世界にも情報工学の手法が流れ込んできた。
「ビッグデータ」という言葉が世に出回ったのもこの時期だと思う。
私が普段扱うデータ量はビッグデータにはほど遠いが、個人のコンピュータを圧迫するくらいには大きい。
多い日は一日に数十GBのデータが出る。

データ量に押し流されるように、生物学は以前より頻繁に数値を扱い、数学的処理を行う。
私がいるような中間的な領域では、生物現象を数値データと数学から見ることに喜びを見出す人たちと、それを遠くから見ている保守的な「生物学者」が、1つの研究室内に混在している。

生物研究者には数学アレルギーのひとが思った以上に多い。
ここまでの文章を読むと、これからの生物研究者は数学を遠ざけているようではいけないと思うかもしれない。
けれど多分、何十年たってもそうはならない。
あいかわらず数学アレルギーの生物研究者は存在し続けると思う。
「データをコンピュータで解析する」技法が進歩すればするほど、数学や情報工学の専門家に任せるしかなくなるだろうし、お決まりの解析はクリックとドラッグ・アンド・ドロップだけでできるようになるだろう。
解析のコラボレーション化あるいは外注化が起こる。

過渡期にある今のほうが、生物研究者に対する「コンピュータを使え、数学的計算をしろ」というプレッシャーは強いかもしれない。

この記事が気に入ったらサポートをしてみませんか?