トップ 一覧 Farm 検索 ヘルプ RSS ログイン

タンパクコード領域塩基配列のマルチプルアライメントの変更点

  • 追加された行はこのように表示されます。
  • 削除された行はこのように表示されます。
{{category 系統解析のための色々}}

*タンパクコード領域塩基配列のマルチプルアライメント

 タンパクコード領域の塩基配列は、in-del(insertion-deletion=配列の挿入や欠失)が存在しないなら通常の塩基配列のマルチプルアライメントを行えばいいのですが、in-delが見つかった場合、その位置はアミノ酸への翻訳やアミノ酸間の置換確率を考慮して推定されるべきでしょう。しかし、塩基配列のアライメントではそこまで考慮されていませんので、それらを考えに入れてのアライメントを行う方法について説明します。

 タンパクコード領域の塩基配列は、in-del(insertion-deletion=配列の挿入や欠失)が存在しないなら通常の塩基配列のマルチプルアライメントを行えばいいのですが、in-delが見つかった場合、その位置はアミノ酸への翻訳やアミノ酸間の置換確率を考慮して推定されるべきでしょう。しかし、塩基配列のアライメントではそこまで考慮されていませんので、それらを考えに入れてのアライメントを行う方法について説明します。ただし、この方法では逆に塩基配列を無視していますので、挿入と欠失が同時に起きてコドン位置がスライドしている場合にはかえって間違いやすくなってしまいます。第1段階の塩基配列のアライメント結果とアミノ酸配列のアライメント結果をよーく眺めてその点を検討した方が良いでしょう。
*塩基配列のアライメント

 通常の塩基配列のマルチプルアライメントを行います。MAFFT・ClustalW・T-Coffee辺りを使えばいいでしょう。MAFFTのfftnsが速度と精度のバランスが取れていると思いますのでお薦めです。これによりまずはin-delの有無を確認します。無ければここで終了です。

 通常の塩基配列のマルチプルアライメントを行います。MAFFT・ClustalW・T-Coffee辺りを使えばいいでしょう。MAFFTのfftnsが速度と精度のバランスが取れていると思いますのでお薦めです。配列数が少ない場合にはlinsiやeinsiコマンドの方が時間はかかりますが高精度にアライメントできます。これによりまずはin-delの有無を確認します。無ければここで終了です。
*アミノ酸配列への翻訳

 アライメント後の配列から、確実にアライメントがうまくいっているように見えるところまでの先頭部分を取り除きます。次に、テキストエディタで開いてin-delを全て削除します(「-」を除去)。そして、[[塩基配列からアミノ酸配列への翻訳]]を参考にしてEMBOSSのtranseqコマンドを用いてもっともらしいアミノ酸配列を生成します。MEGAは避けた方が無難です。もしも塩基配列が逆向きなら修正して、再度アライメントの上でうまくいっていない先頭部分は削除してin-delを除去します。
 アライメント後の配列から、確実にアライメントがうまくいっているように見えるところまでの先頭部分を取り除きます。次に、以下のようにEMBOSSのdegapseqを実行してin-delを全て削除します(「-」を除去)。

 degapseq input-file-name output-file-name

 そして、[[塩基配列からアミノ酸配列への翻訳]]を参考にしてEMBOSSのtranseqコマンドを用いてもっともらしいアミノ酸配列を生成します。MEGAは避けた方が無難です。もしも塩基配列が逆向きなら修正して、再度アライメントの上でうまくいっていない先頭部分は削除してin-delを除去します。
*アミノ酸配列のアライメント

 アミノ酸配列を適当なツールでアライメントします。ClustalWでいいでしょう。これでアミノ酸の置換確率が考慮されます。

 アミノ酸配列を適当なツールでアライメントします。これでアミノ酸の置換確率が考慮されます。
*アミノ酸配列を参照しての塩基配列アライメント

 EMBOSSのtranalignコマンドを用いて、アライメント済みアミノ酸配列をリファレンスとして塩基配列をアライメントします。これで翻訳後のアミノ酸配列の変化を最小化するような塩基配列のアライメントが完了します。tranalignは以下のように用います。-tableオプションはtranseqと同じです。


 tranalign -table x unaligned-nucleotide-sequence aligned-peptide-sequence output