macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

オルガネラゲノムの遺伝子の多重整列を自動で構築するパイプライン

 

 オルガネラの系統解析を行うためには、あらかじめアラインメントされた単一遺伝子データセットを連結したマルチ遺伝子アラインメントマトリクスを正確に構築する必要がある。しかし、数十から数百の相同遺伝子からなる高品質なマルチ遺伝子アラインメントを手作業で作成するには、バイオインフォマティクスの専門家では数日から数週間かかる。ここでは、homologous block searching methodを用いて多重配列アラインメントを構築する、新しい高効率パイプラインHomBlocksについて説明する。この手法は、オルガネラゲノム間の局所的に共線性ブロックを自動的に認識し、系統的に情報のある領域を抽出して、短い時間で複数の配列アライメントを構築することができる。また、HomBlocksはアノテーションのないオルガネラゲノムにも対応しており、異なる分類群のデータにも対応しているため、できるだけ多くの共通遺伝子を含むことができる。従来のマルチ遺伝子アラインメントとHomBlockSのアラインメントを異なる分類群で実施して構築したツリーのトポロジーを比較したところ、HomBlockSでも従来の方法と同様の効率が得られることがわかった。HomBlockSの登場により、オルガネラの系統解析がバイオインフォマティシャンでなくても利用できるようになり、オルガネラゲノムレベルでの系統関係の理解が進むことが期待される。
 HomBlockSはPerlで実装されており、LinuxmacOSなどのUnix系OSに対応している。Perlソースコードは、https://github.com/fenghen360/HomBlocks.git から自由にダウンロードすることができ、ドキュメントやチュートリアルは、https://github.com/fenghen360/HomBlocks にある。

 

HomBlocksのフレームワークPerlで実装されている。HomBlocksは、 progressive Mauveのアンカー付きアライメントアルゴリズムを用いて、オルガネラゲノム(葉緑体ゲノムとミトコンドリアゲノム)に共通する局所的に共線性のブロック(LCB)を特定する。オルガネラゲノム間で共存するLCBを抽出し、系統的に情報のある領域を選別するためのトリミングを行う。HomBlocksでは、LCBをトリミングするために4つの異なる方法を提供している。Gblocks、trimAl、noisy、BMGEである。設定を行わない場合、デフォルトのトリミング方法はGblocksである。トリミングされたLCBで構成された最終的なアラインメントは、下流の解析に使用できる。PartitionFinderによる最終アラインメント後、RAxMLのための最適なDNA置換モデル、最適な分割スキーム、配列進化モデルを選択するための追加パラメータが用意されている。

f:id:kazumaxneo:20210809190730p:plain

 Githubより

 

インストール

依存

  • perl with version above 5
  • java with version above 1.7 (required by BMGE.jar)
  • python with version above 2.7 (required by PartitionFinder)
  • circos (optimal)

Github

git clone https://github.com/fenghen360/HomBlocks.git
cd HomBlocks-master/
chmod 755 -R bin/* PartitionFinderV1.1.1/

 > perl HomBlocks.pl 

$ perl HomBlocks.pl 

Error!

 

Please provide the output file

 

usage: ./HomBlocks.pl <parameters>

 

parameters:

-in=<file>                            Genome alignment outputfile derived from Muave. If you set --align, ignore this input parameter.

-out_seq=<file>                       Output file of trimmed and concatenated sequences.

-number=<int>                         Number of taxa used in aliggment (should be precious). If you set --align, ignore this input parameter.

-min=<int>                            Minimum alignment length of a extracted module. (Default: unset)

-method=[Gblocks|trimAl|BMGE|noisy]   To choose which program to be used in alignment trimming. (Default: Gblocks).

 

--PartitionFinder                     To calculate the best subsitition model for each extracted colinear block and set best partition scheme by PartitionFinder.

--align                               If you want to align sequences by mauve, add this parameter (Default: progressiveMauve).

                                      Then you should split every sequence into a single file. File suffix with fasta,gb,fas,fa is acceptable.

--path=                               Absolute path to directory where you put in fasta sequences (Under --align parameter).

--mauve-out=                          The output file produced by mauve (Absolute path). If you set --align parameter.

 

-help/h                               Print the usage.

 

 

テストラン

36個のオルガネラゲノムの系統解析を行う。

1、HomBlocks.plを実行。progressive Mauveも行う場合は--alignと-out_seq=を指定する。

perl HomBlocks.pl --align --path=plant/fasta/ -out_seq=output.fasta --mauve-out=mauve.out

mauveのmauve.outと、多重整列されたfastaファイル;output.fastaとが出力される。

 

2、次はmauve.outを指定してHomBlocks.plを実行。36ゲノムなら-number=36と指定。トリミング方法はGblocks。

perl HomBlocks.pl -in=mauve.out -out_seq=output2.fasta -number=36 -min=200 -method=Gblocks

 多重整列されトリミングされたfastaファイル;output2.fastaが出力される。

 

2のコマンドを--PartitionFinder parameterをつけて実行すると、PartitionFinderを用いてベストフィットDNA置換モデルが取得される(partitionfinder_dirというディレクトリが作成され、その中に保存される)。PHYLIP フォーマットのツリーファイルもできるはずだが、raxmlのラン前にエラーになった。

 

引用
HomBlocks: A multiple-alignment construction pipeline for organelle phylogenomics based on locally collinear block searching
Guiqi Bi, Yunxiang Mao, Qikun Xing, Min Cao

Genomics. 2018 Jan;110(1):18-22