macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

非相同な領域をマスクしてアライメントの誤りを防ぐ PREQUAL

2018 12/02 mafftコマンドの誤り修正

 

 系統的なデータセットには、品質の低い配列または誤った遺伝子モデルのために、常に、相同性のないストレッチが含まれる。大規模なデータセットでは、これらの手動によるキュレーションはできないが、この作業を自動化できるツールもほとんどない。この問題に対処するために、著者らはアライメントしていない相同配列セットを入力とし、非相同性の隣接領域を同定しマスクする、確率的アプローチを用いる新しい方法を開発した。そのような領域は、セット中の他のいかなる配列とも、相同性について統計的な支持を持たない領域として定義される。これは、例えば、シーケンシングエラーまたはフレームシフトエラーによる遺伝子の予測の誤りが含まれる。著者らの方法論はプログラムのPREQUALに実装された。プログラムPREQUALは正確でハイスループットな、配列のフィルタリングツールである。このプログラムは主にアミノ酸配列を対象としているが、タンパク質をコードするDNA配列も同様に扱うことができる。フィルタリング感度の微調整を可能にするため、完全にカスタマイズすることができる。

 

こちらで詳しく説明されています。

Automated removal of non-homologous sequence stretches in phylogenomic datasets

f:id:kazumaxneo:20181123092532p:plain

 

PREQUALに関するツイート

 

インストール

mac os10.14でテストした。

本体 Github

git clone https://github.com/simonwhelan/prequal.git
cd prequal/
make

> prequal

$ prequal 

----------------------------------------------------

PREQUAL v.1.02  by Simon Whelan

----------------------------------------------------

 

Usage: 

./prequal [options] input_file

-h [all] for [full] options

 

Typical usage (should do a good job with most sequences):

./prequal input_file

 

kazuma@kamisakumanoMBP:~/Documents/prequal$ ./prequal -h

----------------------------------------------------

PREQUAL v.1.02  by Simon Whelan

----------------------------------------------------

 

Simple options (-h all for full options)

-filterthresh X     : Filter the sequences to the posterior probabilities threshold X [DEFAULT = 0.994]

(range 0.0 - 1.0). DEFAULT filtering option with threshold

-corerun X       : X number of high posterior residues at beginning and end before 

a core region is defined [DEFAULT 3]

-pptype X [Y]       : Specify the algorithm used to calculate posterior probabilities

X = all : for all against all sequence comparisons

X = closest : for Y closest relatives [DEFAULT; Y = 10]

X = longest : for comparing the Y longest sequences [Y = 10]

-filterjoin X       : Extend filtering over regions of unfiltered sequence less than X [DEFAULT X = 10]

-nofilterlist X     : Specify a file X that contains a list of taxa names that will 

not be filtered. In X one name per line.

 

Usage: 

./prequal [options] input_file

-h [all] for [full] options

 

Typical usage (should do a good job with most sequences):

./prequal input_file

 

 

実行方法

アライメント実行前のmulti-fastaファイルを入力とする (gapがあると計算できない)。mafftのマニュアルからダウンロードできるプロテインデータセット (multi-fasta) を使ってテストしてみる。デファルト設定のパラメータで最適化されており、通常は追加オプションなしで実行できる。

prequal input.fa

input.fa.filteredが出力される。

Xでマスクされる。 

f:id:kazumaxneo:20181123134528p:plain

 

 それからマルチプルアライメントを実行する。例えばmafftを使う。

mafft --auto input.fa.filtered > alignment

 

引用
PREQUAL: detecting non-homologous characters in sets of unaligned homologous sequences

Whelan S, Irisarri I, Burki F

Bioinformatics. 2018 Nov 15;34(22):3929-3930

 

関連ツール