トップ 一覧 Farm 検索 ヘルプ RSS ログイン

アライメントのコツの変更点

  • 追加された行はこのように表示されます。
  • 削除された行はこのように表示されます。
{{category 系統解析のための色々}}

*データの用意

 アライメントをしやすいデータを整えることがまずは肝要です。自前のデータのみで系統解析する際にはさして気を遣う必要はありませんが、GenBankから落としてきたデータ、特に特定の遺伝子のみの配列データではなくミトゲノムデータなどの場合には適宜必要な部分のみを取り出した方が、この後のアライメントで使うソフトウェアに扱いやすいデータになります。GenBankデータからの特定領域の取り出しには[[GenBank形式配列から特定遺伝子を切り出す]]をご参照下さい。

*アライメントソフトウェアの選定

 基本的には使いやすいソフトで構いませんが、fftnsi(速度重視)かlinsi(精度重視)を使うことをお薦めします(どちらもMAFFTに含まれる)。アミノ酸・核酸のどちらでも使えます。
*アライメント

 データを整えて、MAFFTでアライメントを行う。それ以上のことは私は特にしていません。rRNA領域などのアライメントが困難なデータではdirect optimizationとか予測された二次構造情報の利用などを行う必要がある場合もあるかもしれませんが、そういうデータはなるべく使わないようにしています。怪しい部分は捨てる。これが原則です。タンパクコード領域データの場合は、[[タンパクコード領域塩基配列のマルチプルアライメント]]にあるように、アミノ酸配列に基づいて行ったアライメント結果と核酸をそのままアライメントした結果を照らし合わせて妥当な方を使います。と言ってもほとんどの場合はその両方式でのアライメント結果が矛盾していたら、その部分は使いません。まれに明らかに最節約的なアライメントがわかることがあるのでそういう場合はそれを使います。
 データを整えて、MAFFTでアライメントを行う。これが基本です。

 データが大きい場合、linsiでは時間がかかってしまうので、一旦fftnsiで大まかにアライメントをした後、BioEditやMEGAなどのアライメントエディタで前後の不要な範囲を除去してからlinsiでアライメントを行います。

 rRNA領域などのアライメントが困難な領域ではlinsiよりもeinsiの方が良い結果を得られることがありますのでこちらも試してみて下さい。ただ、私はそもそもアライメントが困難なデータはなるべく使わないようにしています。怪しい部分は捨てるのが原則です。

 タンパクコード領域データの場合は、[[タンパクコード領域塩基配列のマルチプルアライメント]]にあるように、アミノ酸配列に基づいて行ったアライメント結果と核酸をそのままアライメントした結果を照らし合わせて妥当な方を使います。と言ってもほとんどの場合はその両方式でのアライメント結果が矛盾していたら、その部分は使いません。まれに明らかに最節約的なアライメントがわかることがあるのでそういう場合はそれを使います。

 しかし、アライメントは実は系統樹に基づいて行われます。ですから、最終的に導き出された系統樹で同じ結果になるのかをClustalWで確認します。ClustalWにはアライメント時のガイド系統樹を指定する機能があるので、その際に推定あれた系統樹を与えてやるわけです。もしアライメント結果に変化が生じた場合は再度系統解析を行います。