2018 12/02 mafftコマンドの誤り修正
系統的なデータセットには、品質の低い配列または誤った遺伝子モデルのために、常に、相同性のないストレッチが含まれる。大規模なデータセットでは、これらの手動によるキュレーションはできないが、この作業を自動化できるツールもほとんどない。この問題に対処するために、著者らはアライメントしていない相同配列セットを入力とし、非相同性の隣接領域を同定しマスクする、確率的アプローチを用いる新しい方法を開発した。そのような領域は、セット中の他のいかなる配列とも、相同性について統計的な支持を持たない領域として定義される。これは、例えば、シーケンシングエラーまたはフレームシフトエラーによる遺伝子の予測の誤りが含まれる。著者らの方法論はプログラムのPREQUALに実装された。プログラムPREQUALは正確でハイスループットな、配列のフィルタリングツールである。このプログラムは主にアミノ酸配列を対象としているが、タンパク質をコードするDNA配列も同様に扱うことができる。フィルタリング感度の微調整を可能にするため、完全にカスタマイズすることができる。
こちらで詳しく説明されています。
Automated removal of non-homologous sequence stretches in phylogenomic datasets
PREQUALに関するツイート
インストール
mac os10.14でテストした。
本体 Github
git clone https://github.com/simonwhelan/prequal.git
cd prequal/
make
> prequal
$ prequal
----------------------------------------------------
PREQUAL v.1.02 by Simon Whelan
----------------------------------------------------
Usage:
./prequal [options] input_file
-h [all] for [full] options
Typical usage (should do a good job with most sequences):
./prequal input_file
kazuma@kamisakumanoMBP:~/Documents/prequal$ ./prequal -h
----------------------------------------------------
PREQUAL v.1.02 by Simon Whelan
----------------------------------------------------
Simple options (-h all for full options)
-filterthresh X : Filter the sequences to the posterior probabilities threshold X [DEFAULT = 0.994]
(range 0.0 - 1.0). DEFAULT filtering option with threshold
-corerun X : X number of high posterior residues at beginning and end before
a core region is defined [DEFAULT 3]
-pptype X [Y] : Specify the algorithm used to calculate posterior probabilities
X = all : for all against all sequence comparisons
X = closest : for Y closest relatives [DEFAULT; Y = 10]
X = longest : for comparing the Y longest sequences [Y = 10]
-filterjoin X : Extend filtering over regions of unfiltered sequence less than X [DEFAULT X = 10]
-nofilterlist X : Specify a file X that contains a list of taxa names that will
not be filtered. In X one name per line.
Usage:
./prequal [options] input_file
-h [all] for [full] options
Typical usage (should do a good job with most sequences):
./prequal input_file
実行方法
アライメント実行前のmulti-fastaファイルを入力とする (gapがあると計算できない)。mafftのマニュアルからダウンロードできるプロテインデータセット (multi-fasta) を使ってテストしてみる。デファルト設定のパラメータで最適化されており、通常は追加オプションなしで実行できる。
prequal input.fa
input.fa.filteredが出力される。
Xでマスクされる。
それからマルチプルアライメントを実行する。例えばmafftを使う。
mafft --auto input.fa.filtered > alignment
引用
PREQUAL: detecting non-homologous characters in sets of unaligned homologous sequences
Whelan S, Irisarri I, Burki F
Bioinformatics. 2018 Nov 15;34(22):3929-3930
関連ツール