バイオインフォマティクスのすすめ（1）

2018年11月29日 10:27

この第1回目から配列比較（配列アライメント）について行っていきます．
今回は配列アライメントのための準備（配列の取得）について記します．

目次
0．始めに
1．配列情報の取得
2．ファイル名の付け方
3．ファイルの中身（FASTA形式について）
4．まとめ

0．始めに

この回では実際に配列アライメントをしてみます．DNA配列とアミノ酸配列の両方とも行います．

最初に手順を示します．

①　配列情報の取得（KEGG GENES DATABASE）
⬇️
②　配列アライメント（NPS@）

1．配列情報の取得

最終目標は配列アライメントですが，当然比較したい配列が必要です．そこで，まずは配列を検索して取り出します．配列検索はKEGG GENES DATABASEを用います．もちろん，配列検索データベースは他に幾つもあるので使い慣れているデータベースがあればそちらをお使いください．

GoogleでKEGGと検索する，もしくは以下のURLを打ち込みます．
https://www.genome.jp/kegg/genes.html

KEGG: Kyoto Encyclopedia of Genes and Genomes

生物種を特定しないでGENEを検索することもできますが，生物種（Organism）を指定してGENEを検索することができます．
ここでは，生物種およびGENE両方とも指定します．GENE枠にはタンパク質名（慣用名・正式名）を入力することもできます．

Search Organism（ "bsu" ）for （ "ftsz" ）　と入力し，Goを押します．
※ ""は除く

Bacillus subtilis (Bsu) のftszは1項目しか出ないはずなので，そのままリンクをクリックすると，以下のページに飛びます．

このページを下までスクロールすると，以下のようにDNA配列とアミノ酸配列情報が記されています．

これらの配列情報をユーザーが使用しているPCのOSに標準装備されているテキストエディタやTerminalに上図のように選択しコピペして保存します．保存形式は ".txt" や ".rtf" でも良いですが，今後の事を考えると拡張子変更をして ".seq" で保存するのが良いのかな？とも思います．

次に，Bsuのftszと比較するために，Staphylococcus aureus (Sau) のftszを用います．

Bsuのftszと同様の方法で検索します．

Search Organism（ "sau" ）for （ "ftsz" ）　と入力し，Goを押します．
※ ""は除く

Staphylococcus aureusのftszも1項目しか出ないはずなので，そのままリンクをクリックすると，以下のページに飛びます．

同様に，このページを下までスクロールするとDNA配列とアミノ酸配列情報が記されているので，それぞれを別々のテキストエディタにコピペします．

2．配列の保存方法（FASTA形式について）

DNA配列やアミノ酸配列ともに，配列（DNAの場合4種類，アミノ酸の場合20+α種類のアルファベット文字列）だけをテキストエディタに記して保存する方法と，これから説明するFASTA形式（FASTAフォーマットともいう）という記述式を用いて保存する方法があります．

記述方法に強制力は無いのでどちらでも構いません．しかしながら，特に複数の配列を同じファイルに保存する場合など，配列のみを記すと後で見返したときに不都合になりかねない，というのは想像に難くないと思います．

ですので，FASTA形式でまとめる方ことをお勧めします．様々なサーバー，特にシーケンスアライメントのソフトウェアの多くでは，FASTA形式が好まれ，世界標準化しているので，FASTA形式を覚えておく必要があります．

そもそもFASTAとは，シーケンスアライメントのソフトウェアパッケージの一つです．現在は，FASTAはほとんど使われず，後述するBLASTの方がメジャーです．

では，FASTA形式とは何かについて簡潔に解説していきます．簡単に言えば下のコラムの通りですが…

FASTA形式の例
（1番目はbsu_ftszのアミノ酸配列，2番目はsau_ftszのアミノ酸配列）

>bsu_ftsz_aa
MLEFETNIDGLASIKVIGVGGGGNNAVNRMIENEVQGVEYIAVNTDAQALNLSKAEVKMQIGAKLTRGLGAGANPEVGKKAAEESKEQIEEALKGADMVFVTAGMGGGTGTGAAPVIAQIAKDLGALTVGVVTRPFTFEGRKRQLQAAGGISAMKEAVDTLIVIPNDRILEIVDKNTPMLEAFREADNVLRQGVQGISDLIATPGLINLDFADVKTIMSNKGSALMGIGIATGENRAAEAAKKAISSPLLEAAIDGAQGVLMNITGGTNLSLYEVQEAADIVASASDQDVNMIFGSVINENLKDEIVVTVIATGFIEQEKDVTKPQRPSLNQSIKTHNQSVPKREPKREEPQQQNTVSRHTSQPADDTLDIPTFLRNRNKRG

>sau_ftsz_aa
MLEFEQGFNHLATLKVIGVGGGGNNAVNRMIDHGMNNVEFIAINTDGQALNLSKAESKIQIGEKLTRGLGAGANPEIGKKAAEESREQIEDAIQGADMVFVTSGMGGGTGTGAAPVVAKIAKEMGALTVGVVTRPFSFEGRKRQTQAAAGVEAMKAAVDTLIVIPNDRLLDIVDKSTPMMEAFKEADNVLRQGVQGISDLIAVSGEVNLDFADVKTIMSNQGSALMGIGVSSGENRAVEAAKKAISSPLLETSIVGAQGVLMNITGGESLSLFEAQEAADIVQDAADEDVNMIFGTVINPELQDEIVVTVIATGFDDKPTSHGRKSGSTGFGTSVNTSSNATSKDESFTSNSSNAQATDSVSERTHTTKEDDIPSFIRNREERRSRRTRR

FASTA形式は，1つのシーケンスデータ（アルファベット文字の羅列）をプレーンテキスト（文字コードのみで構成されるテキストデータ）を用いて記述する方法です．難しくありません．

①　1行目の先頭に ">" を記述し，ヘッダ行とします．
　　ヘッダ行は1行目のみで，>以降，スペースをあけずにヘッダを入力
　　（正）>bsu_ftsz_aa　　（誤）>　bsu_ftsz_aa

②　2行目以降は，実際のシーケンスデータが記されます．
　　このシーケンスデータは改行を認識しません．

③　複数種類の配列を羅列する場合，次に ">" で始まるヘッダ行の登場で
　　シーケンスデータが区切られます．
　　つまり，2番目以降の配列の前行に ">"行を置かないと，2番目の配列
　　も1番目の配列に含まれると認識されてしまいます．

3．ファイル名の付け方

最後に，ファイル名の付け方について，言及しておきます．

これはバイオインフォマティクスに限らず，どの場面でも重要になってくることですが，もし今後，この作成したファイルを自分以外の誰かに見せる・引き継ぐことが一切無いと断言できるなら，その人の好きなように扱って構いません．しかし，少しでも他人の目に触れる機会があるなら，一般化する方が好ましいと思います．

以下の例はあくまで例なので参考までに．

Bacillus subtilis の ftsz では，"bsu_ftsz"
Staphylococcus aureus の ftsz では "sau_ftsz" と名付けることにします．
今回はDNA配列とアミノ酸配列の両方とも必要なので，ファイル名の末尾に "NT" (DNA) や "AA" (アミノ酸) を付けると良いでしょう．

先述の通り，配列を保存する場合の拡張子は ".seq" をお勧めします．拡張子変更が難しければ，rtfでもtxtでも良いです．
もし日付を付けておきたければ，頭に "181128_" などと付けるのも良いかもしれません．

bsu_ftsz_nt.seq (bsu_ftszのDNA配列)
bsu_ftsz_aa.seq (bsu_ftszのアミノ酸配列)
sau_ftsz_nt.seq (sau_ftszのDNA配列)
sau_ftsz_aa.seq (sau_ftszのアミノ酸配列)

181128_sau_ftsz_aa.seq (日付ありの例)

4．まとめ

今回は配列情報の取得について解説しました．

自分は配列アライメントを行うときは必ずこのルートで行っているので，迷ってる方はこの流れに身を置いてみるのも一つと思います．
（この流れは実際に自分が学部生の頃に学生実験で習った方法です）

次回は，今回取得した配列を用いて配列アライメントを行います．
そのうえで配列アライメントとは何ぞや，と突っ込んで説明していこうかなと考えています．

今後ともどうぞよろしくお願いいたします．

この記事が気に入ったらサポートをしてみませんか？