macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

マルチプルアライメンントのトリミングツール trimAI

マルチプルアライメントを行うとアライメントがほとんどできない領域ができることがあるが、そういった領域は情報として利用するのが難しいため、一般的に除去しても問題にならない。trimAIはラージスケールにも対応したマルチプルアライメントのトリミングツールで、何千もの配列のマルチプルアライメント出力からアライメントが貧弱な領域を除去することができる。入力できるのはPhylip、Fasta、Clustal、NBRF/Pir、Mega、Nexusなどになる。

 

マニュアル

http://trimal.cgenomics.org/use_of_the_command_line_trimal_v1.2

チュートリアル

http://trimal.cgenomics.org/_media/manual.b.pdf

 

インストール

Download

http://trimal.cgenomics.org/downloads

ダウンロードしたディレクトリを解凍してビルドする。

cd trimAl/source/
make

readalとtrimalにパスを通す。

  

実行方法

入力はマルチプルアライメントの出力ファイルとなる。

 10%以上の配列でアライメントにギャップがある領域を全てトリミングして出力する(トリミング後の長さが60%以下になる場合、60%までトリミングを行う)。

 trimal -in input.aln -out output.aln -htmlout output.html -gt 0.9 -cons 60 
  • -in Input file in several formats (clustal, fasta, NBRF/PIR, nexus, phylip3.2, phylip).
  • -out Output alignment in the same input format (default stdout). (default input format)
  • -htmlout Get a summary of trimal's work in an HTML file.
  • -gt 1 - (fraction of sequences with a gap allowed).
  • -cons Minimum percentage of the positions in the original alignment to conserve. 

 

ギャップの閾値を自動で決める。4つの方法がある。

trimal -in input.aln -out output.aln -gappyout
  • -gappyout Use automated selection on "gappyout" mode. This method only uses information based on gaps' distribution. (see User Guide).
trimal -in input.aln -out output.aln -strict
  • -strict Use automated selection on "strict" mode. (see User Guide).
trimal -in input.aln -out output.aln -strictplus
  • -strictplus Use automated selection on "strictplus" mode. (see User Guide). (Optimized for Neighbour Joining phylogenetic tree reconstruction).
 trimal -in input.aln -out output.aln -automated1
  • -automated1 Use a heuristic selection of the automatic method based on similarity statistics. (see User Guide). (Optimized for Maximum Likelihood phylogenetic tree reconstruction).

 

  

マルチプルアライメントは t-coffeeなどで行うことができる(リンク)。

t_coffee input.fasta

 

引用

trimAl: a tool for automated alignment trimming in large-scale phylogenetic analyses

Salvador Capella-Gutiérrez, José M. Silla-Martínez and Toni Gabaldón∗

Bioinformatics. 2009 Aug 1;25(15):1972-3.