macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

BWTによる高速なゲノム間アラインメントを行う GSAlign

 

パーソナルゲノミクスと比較ゲノミクスは、臨床診療とゲノム研究においてますます重要になっている2つの分野である。両方のフィールドは、配列の保存と構造の変化を発見するためにシーケンスアラインメントが必要である。ゲノム配列のアラインメントを処理するために多くの方法が開発されているが、一部は小さなゲノム比較用に設計されており、一部は大規模なゲノム比較には効率的ではない。ここでは、大規模なゲノム比較を効率的に処理するGSAlignを紹介する。 GSAlignには次の3つのユニークな機能が含まれる。1)ゲノムシーケンスアラインメントでBurrows-Wheeler Transformを使用する最初の試み。 2)並列計算をサポートする。 3)分割統治戦略を採用して、クエリシーケンスを、位置合わせが容易な領域とギャップのある位置合わせが必要な領域に分離する。これらすべての機能により、GSAlignは2つのゲノムシーケンス間の正確な一致と相違の両方を見つけるのに非常に効率的で感度が高く、既存の最先端の方法よりもはるかに高速であることを実証した。

 

インストール

ubuntu19.04でテストした。

Github

git clone https://github.com/hsinnan75/GSAlign.git
cd GSAlign/
make

#test
./run_test.sh

./GSAlign -h

# ./GSAlign -h

 

GenAlign v1.0.0

Usage: ./GSAlign [-i IndexFile Prefix / -r Reference file] -q QueryFile[Fasta]

 

Options: -t     INT     number of threads [8]

         -o     STR     Set the prefix of the output files [output]

         -fmt   INT     Set the output format 1:maf, 2:aln [1]

         -idy   INT     Set the minimal sequence identity (0-100) of a local alignment [70]

         -slen  INT     Set the minimal seed length [15]

         -alen  INT     Set the minimal alignment length [5000]

         -ind   INT     Set the maximal indel size [25]

         -clr   INT     Set the minimal cluster size [250]

         -sen           Sensitive mode [False]

         -dp            Output Dot-plots

BWT_Index/bwt_index -h

# BWT_Index/bwt_index -h

Usage: BWT_Index/bwt_index Ref_File[ex. ref.fa] Prefix[ex. MyRef]

 

 

実行方法

1、リファレンスのindexing

bwt_index ref.fa <index_name>

index.~が出力される。

f:id:kazumaxneo:20190929013428p:plain

 

2、アラインメント

GSAlign -i <index_name> -r ref.fa -q query.fa 

出力はMAF形式(MAF (Multiple Alignment Format) の方のMAF)になる。MAFの視覚化や操作にはmaftoolsが利用できる。ゲノムの違いを示したVCFファイルも出力される。 

 

引用

GSAlign – an efficient sequence alignment tool for intra-species genomes

Hsin-Nan Lin, Wen-Lian Hsu
bioRxiv preprint first posted online Sep. 25, 2019

 

関連


参考ページ

Burrows-Wheeler 変換 | アラインメントプログラムでよく使われる文字列検索アルゴリズム

 

Burrows-Wheeler Transform