トップ 一覧 Farm 検索 ヘルプ RSS ログイン

複数遺伝子領域を用いた系統解析のための塩基置換モデル選択の変更点

  • 追加された行はこのように表示されます。
  • 削除された行はこのように表示されます。
{{category 系統解析}}

*License

This script is distributed under GNU GPL.

本スクリプトは、GNU GPLに基づいて配布されています。

*決まり文句

 例によって例のごとく内容は無保証なので要注意。このページの情報に従って何らかの損害が出ても補償できませんのであしからず。要するに自己の責任において実行してちょうだいねということです。

*概要

 近年、系統解析に用いるデータの増加によって複数の遺伝子領域を用いた系統解析が頻繁に行われるようになってきていますが、モデル選択と解析ソフト側の設定が煩雑なため、全領域を連結しただけのデータを用いて塩基置換モデル選択と系統解析が行われていることがしばしばあります。しかし、実際には異なる遺伝子領域は異なる塩基置換の様式を持っていることが多く、それぞれの領域毎にモデル選択を行って選ばれたモデルを適用すべきことが多いと思います。これはそのためのPerlスクリプトです。PAUP*などの有料のソフトウェアを一切使わず、オープンソース(GPL)なPHYMLを呼び出して尤度を計算させることでモデル選択を行っています。ReadSeqを呼び出してデータ変換を行うことで、ReadSeqで読み込み可能なデータ形式ならほぼ全て扱うことができますので事前のデータ形式変換は必要ありません。

*注意

 これは複数遺伝子領域データを扱う際の一般的な注意点なのですが、各遺伝子領域単独での解析結果が明らかに異なる場合には、組み換えや遺伝子浸透などによりそれぞれの遺伝子が異なる系統を持っている可能性が高いと思います。そのような場合にはどれか、もしくは全体がそもそも系統解析には適していないと考えて下さい。このスクリプトはそこまで検討しません。それは事前にやっておいて下さい。また、単一の領域しか使わない場合は問題無いのかというとそうではなく、単一の領域しか使わない場合には検討のしようがないのでただ分からないだけです。

*必要なもの

-PHYML

 モデル選択に必要な尤度を計算するために用いる。スクリプトからは「phyml」で呼び出せる必要がある(PATHの通っている場所に置いておく)。スクリプトの冒頭で呼び出しコマンドを定義していますのでテキストエディタで開いてその部分を書き換えれば必ずしもPATHの通っている場所に置かなくても構いません。

-ReadSeq

 入力データ形式の変換のために用いる。スクリプトからは「readseq」で呼び出せる必要がある(PATHの通っている場所に置いておく)。スクリプトの冒頭で呼び出しコマンドを定義していますのでテキストエディタで開いてその部分を書き換えれば必ずしもPATHの通っている場所に置かなくても構いません。Java版でも使えますが、その際はスクリプト冒頭の

 my $readseq = 'readseq';



 my $readseq = 'java -jar readseq.jar';

に書き換えて下さい。readseq.jarを別のディレクトリに置く場合には適宜変更して下さい。

-Perl

 スクリプトを実行するために必要。Windowsでは[ActivePerl|http://www.activestate.com/Products/ActivePerl/]でOK。MacOS Xでは標準で含まれているはずです。

*処理内容

+コマンドラインオプションから指定された領域毎に配列を分割する
+タンパクコード領域はコドン位置毎にさらに分割する
+未分割・分割・コドン位置分割のそれぞれで全56モデルのモデル選択
+結果を出力
+MrBayes用のコマンドを出力

 MrBayes以外のソフト用の出力は今後実装していくつもりです。

*スクリプト

-http://www.fifthdimension.jp/products/kakusan/

からダウンロードして下さい。

*使用方法

 perl kakusan.pl --help

でメッセージが出ます。

 領域は

 perl kakusan.pl --partition=hoge1:1-300,hoge2:301-600 datafile

みたいな感じで指定して下さい。どこの領域にも含まれない座位が見つかったら止まります。また、複数の領域に重複して含まれる座位が見つかった場合もエラーになります。

 タンパクコード領域を含む場合は領域名に_Pを付けます。

 perl kakusan.pl --partition=hoge1:1-300,protein_P:301-600,hoge2:601-900

*結果を利用した解析方法

 実行すると、datafile.kakusanというディレクトリが生成されてその中に色々ファイルができます。MrBayes用の設定ファイルはさらにMrBayesという名前のディレクトリの中に出力されますのでまずはカレントディレクトリを移動します。

 cd datafile.kakusan
 cd MrBayes

このディレクトリには元のデータファイルをNEXUS形式に変換したdata.nexと、hogehoge_AIC.nexなどのファイルがあります。Concatenate・Proportional・Separate modelそれぞれのためのファイルがありますので適当に選んで使って下さい。Concatenate・Proportional・Separate modelの比較は行っていませんのでご注意下さい。Concatenate・Proportional・Separate modelのそれぞれの意味については[Pupko et al. (2002)|http://mbe.oxfordjournals.org/cgi/content/abstract/19/12/2294]のIntroductionをご参照下さい(無料で全文読めます)。

*履歴

-2006/02/11 初版リリース

*バグ報告・要望

{{buglist kakusan.pl,form}}
{{bugtrack kakusan.pl,本体}}
*複数遺伝子領域を用いた系統解析のための塩基置換モデル選択
 [分子系統学演習 - データセットの作成から仮説検定まで|http://www.fifthdimension.jp/documents/molphytextbook/]にまとめ直しました。リンク先をご覧下さい。