バイオインフォマティクスのすすめ(3)


第3回目の今回からは,前回のメインテーマである,配列アライメントとは何か,どうやって一致した/しない配列を選り分け,挿入・欠失領域を決定しているのかについて説明していきます.

前回までは,実際にアミノ酸配列やDNA配列を取り出して,配列アライメントを実践形式で行いましたが,今回からは座学になります.

目次
0.始めに
1.配列アライメントとは
2.アミノ酸の配列アライメント作成
3.最適な配列アライメントとは(配列アライメントにとっての苦手分野)
4.まとめ

0.始めに


自分はタンパク質ユーザーなので,アミノ酸配列の配列アライメントに注視しがちです.実際に,DNA配列の配列アライメントはシーケンスの確認程度にしか用いません.しかし,アミノ酸の場合は,文字が原則20字あり,セントラルドグマの経路でも分かるように,上位にDNA配列があるので単純に文字の一致・不一致だけを示せば良いというわけにはいきません.

そこで,今回からの配列アライメントに関する座学では,基本的にDNA配列の配列アライメントを例に解説していきますが,アミノ酸配列を用いることもあります.

しかし,この第3回目は,配列アライメントの蓋を開ける前の準備段階ですので,気負わずに取り組んでください.

1.配列アライメントとは


定義といっても良いと思いますが,配列アライメントとは「2本以上の配列を互いの類似性を最大にするように整列させること」です.
この配列アライメントにおいて最も重要なのは,基本的に生物学的情報(実際の実験結果)を含まないということです.

上図は,Homo Sapiens(ヒト)と Saccharomyces cerevisiae(酵母)の,とあるタンパク質(一部)のDNA配列の配列アライメントの結果です.

赤字は「一致 "Identity"」,黒字は「不一致 "Different"」,--- は「ギャップ "Indel (= INsertion + DELetion)"」を示しています.正確には,--- が実際に示されている方は「欠失 "Deletion"」を,--- の相方は「挿入 "Insertion"」を示しています.DNA配列の場合,比較した2本の配列の上下の文字は必ず赤か黒で示されます.アミノ酸の場合も,表示される色が追加される以外,特に変更点はありません.多少のフォーマットの違いがあれ,見て判断できるようになっています.

2.アミノ酸の配列アライメント作成


アミノ酸配列に限らず,DNA配列でも同じことなのですが,ここではアミノ酸配列を例にとって配列を比較して色づけをしようと思います.下に例と解答を示しますが,ここで示すアミノ酸配列は架空です.

(例1) アミノ酸配列の長さが同じで,文字が僅かに異なる場合

     AWSTMKHEENLL
     AWSTMRHEENLL

(例2) アミノ酸配列の長さが異なる場合

     AWSTMKHEENLL
     AWSTMENLL

(例3) アミノ酸配列の長さと文字が異なる場合

     AWSTMKHEENLL
     PTMRHENLIL

この3つの例題の答えは以下の通りになります.左が例1で,中央が例2,右が例3です.先述の通り,上下で同じ文字は赤で示し,異なる場合は黒で示します.ギャップの場合も,文字の有無という点で上下で異なっているので黒字で記します.

配列アライメントにおいて,上下の配列間が異なる場合,生物学的には何が起きたのかという注釈付け(理由付け)が求められます.そこまで難しい話ではないので想像に難くないですが,配列中のアミノ酸が異なる場合は,アミノ酸置換が起きたと考えるのが妥当です.また配列の長さが異なる場合は挿入や欠失が起きてギャップが生じたと考えます.

3.最適な配列アライメントとは(配列アライメントにとっての苦手分野)


タイトルに示すように,もしこの配列アライメントが完璧なものであれば,わざわざ「最適」な配列アライメントを模索する必要は無いはずです.そして,その「最適」を選択する必要がある時点で,配列アライメントはやはり生命科学系の研究現場において補助的な立ち位置を貫くしかなさそうです.しかし配列アライメントの重要性は第2回目の最初に示したとおりです.

それはさておき,最適な配列アライメントを行うために,開発者たちが行ってきたことは大きく分けて2点あります.

① アミノ酸置換をなるべく減らすこと(下図左)
② ギャップをなるべく減らすこと(下図右)

これまで何度も示してきたとおり,配列比較には生物学的情報を含まないため,「最適化」とはこの程度止まりです.それでは例3を用いて見ていきましょう.アミノ酸置換を減らしたい場合は,上下が異なる文字にならないようにする必要があり,ギャップを減らしたい場合は,ギャップ "-" の数を減らす必要があります.

上図の2番目の配列の先頭の P(プロリン)に着目してください.左の場合はアミノ酸置換を減らすため,1番目の配列の "AWS" とは異なる位置に "P" を整列させています.右の場合はギャップを減らすために1番目の配列の "A" (アラニン)が "P"(プロリン)に置換したと仮定しています.両者を比較すると,左の例ではギャップを含めたアライメントの総配列数が右の例より2文字分長くなっています.
配列アライメントの目的は配列の同異を推測することなので,アライメント結果の配列数を余計に長くすることは勧められません.ある文字もしくは文字列に対して置換とギャップのどちらを優先させるかは,場合によりけりと思いますが,大前提として「アライメント後の総配列数が,1本の配列数を大きく超えない」ことを念頭に置いてください.

4.まとめ

今回は少し短いですが,キリが良いのでここまでにします.見てきて分かると思いますが,バイオインフォマティクスは生命科学から派生した学問ではなく,歴としたコンピューターサイエンス(計算科学)なので,配列アライメントも計算科学の利点を最大限活かしているように見受けられます.しかし,そのせいで生命科学ユーザーの痒いところに手が届かないのも事実です.たとえ将来,今まで以上に多くのタンパク質・RNA・DNA等の機能・構造が明らかにされたとしても,配列アライメントの精度が格段に上がることはないと思われますが,逆にその内情を知ることにより,配列アライメントとは?ということに対して,より身近に感じて頂ければ幸いです(一方で諦めも感じるかもしれませんが…).

次回は,配列アライメントのアルゴリズムについて,計算式などを用いて解説する予定です.次章はWebでもバイオインフォマティクス関連書籍でもよく登場する内容です.アルゴリズムに親近感を持つ人はこのブログを読む必要は無いかもしれませんが,プログラムはちょっと…という人にも何となく伝わることを期待しています.

今後ともどうぞよろしくお願いいたします.





この記事が気に入ったらサポートをしてみませんか?