パーソナルゲノミクスと比較ゲノミクスは、臨床診療とゲノム研究においてますます重要になっている2つの分野である。両方のフィールドは、配列の保存と構造の変化を発見するためにシーケンスアラインメントが必要である。ゲノム配列のアラインメントを処理するために多くの方法が開発されているが、一部は小さなゲノム比較用に設計されており、一部は大規模なゲノム比較には効率的ではない。ここでは、大規模なゲノム比較を効率的に処理するGSAlignを紹介する。 GSAlignには次の3つのユニークな機能が含まれる。1)ゲノムシーケンスアラインメントでBurrows-Wheeler Transformを使用する最初の試み。 2)並列計算をサポートする。 3)分割統治戦略を採用して、クエリシーケンスを、位置合わせが容易な領域とギャップのある位置合わせが必要な領域に分離する。これらすべての機能により、GSAlignは2つのゲノムシーケンス間の正確な一致と相違の両方を見つけるのに非常に効率的で感度が高く、既存の最先端の方法よりもはるかに高速であることを実証した。
インストール
ubuntu19.04でテストした。
git clone https://github.com/hsinnan75/GSAlign.git
cd GSAlign/
make
#test
./run_test.sh
> ./GSAlign -h
# ./GSAlign -h
GenAlign v1.0.0
Usage: ./GSAlign [-i IndexFile Prefix / -r Reference file] -q QueryFile[Fasta]
Options: -t INT number of threads [8]
-o STR Set the prefix of the output files [output]
-fmt INT Set the output format 1:maf, 2:aln [1]
-idy INT Set the minimal sequence identity (0-100) of a local alignment [70]
-slen INT Set the minimal seed length [15]
-alen INT Set the minimal alignment length [5000]
-ind INT Set the maximal indel size [25]
-clr INT Set the minimal cluster size [250]
-sen Sensitive mode [False]
-dp Output Dot-plots
Usage: BWT_Index/bwt_index Ref_File[ex. ref.fa] Prefix[ex. MyRef]
実行方法
1、リファレンスのindexing
bwt_index ref.fa <index_name>
index.~が出力される。
2、アラインメント
GSAlign -i <index_name> -r ref.fa -q query.fa
出力はMAF形式(MAF (Multiple Alignment Format) の方のMAF)になる。MAFの視覚化や操作にはmaftoolsが利用できる。ゲノムの違いを示したVCFファイルも出力される。
引用
GSAlign – an efficient sequence alignment tool for intra-species genomes
Hsin-Nan Lin, Wen-Lian Hsu
bioRxiv preprint first posted online Sep. 25, 2019
関連
参考ページ
Burrows-Wheeler 変換 | アラインメントプログラムでよく使われる文字列検索アルゴリズム
Burrows-Wheeler Transform