DNAのセグメントの向きが、染色体の残りの部分と比較してその先祖から反転している逆位多型(Inversion polymorphisms)は、ショウジョウバエの異なる系統のハイブリッドにおける染色体間の組換えの抑制因子として、スターテバントによって1917年に最初に発見された[ ref.1]。逆位は、非相同末端結合(NHEJ [ref.2])、非対立遺伝子相同組換え(NAHR)、またはフォークストールとテンプレートスイッチング(FoSTeS [逆位3])に大まかに分類できる。 NHEJは、DNAの二本鎖切断を修復するための経路である。逆位配列は、大きな相同配列なしでブレークポイントに直接ライゲーションする[ref.2]。 NAHRは、相同配列間で発生する異常な組換えメカニズムである。逆方向反復(IR)間の相同組換えは、介在配列を反転させ、逆位を作る[ref.4]。ほとんどすべて(12/14)の既知の大規模な逆位(> 1 Mb)多型はNAHRによって媒介される[ref.5]。( 一部略)
NpInvというロングリードシーケンスデータからNAHRを介した逆位を検出およびジェノタイピングする新しいツールを提示する。 npInvへの入力は、BWA-MEM [ref.12]などのローカルアライナーから生成されたbam形式のアライメントファイルである。 npInvのパイプラインと擬似コードは、それぞれ論文図1と補足メソッドに示されている。簡単に言えば、npInvはアラインメントファイルをスキャンして、同じ染色体にマッピングされているが方向が異なるサブリードアラインメントのペアを含むリードを探す(論文図2)。 npInvは、このサブリードアラインメントペアを逆位のシグナルとして記録する。npInvは、クラスター内の逆位シグナルの位置と数に基づいて逆位イベントを検出するために、すべての逆位シグナルをクラスター化およびフィルター処理する。 npInvは、逆位をサポートするリード数と、非逆位対立遺伝子をサポートするリード(逆位ブレークポイントにまたがるリード)の両方を報告する。
インストール
ubuntu18.04 LTSのjava1.8環境でテストした。
依存
Java version 1.8+.
本体 Github
リリースからビルドされたnpInv1.24.jarをダウンロードできる。
> java -jar npInv1.24.jar -h
$ java -jar npInv1.24.jar -h
No Key Name: output
Program function: Read a SE bam file and get the inversion
Version: 1.24
--output[String] file to write
--input[String] file to read
optional:
--region[String] Specify the region for running.
Such as chr9:1-1000 OR chr9 OR all Default[all]
--minAln[int] minimum size for Alignment & Inv. Default[500]
--IRdatabase[String] An inverted repeat file for the reference in bed format. Default[none]
--min[int] minimum size of an inversion. Default[500]
--max[int] maximum size of an inversion. Default[10000]
--window[int] minimun window size (bp) to merge inversion breakpoints. Default[2000]
--threshold[int] minimum number of supporting reads for an inversion. Default[3]
--help Show usage
For example: java -jar npInv.jar --input sample.bam --output sample.VCF
実行方法
bamを指定する。
java -jar npInv.jar --input input.bam --output out.vcf
引用
npInv: accurate detection and genotyping of inversions using long read sub-alignment
Haojing Shao, Devika Ganesamoorthy, Tania Duarte, Minh Duc Cao, Clive J. Hoggart, Lachlan J. M. Coin
BMC Bioinformatics volume 19, Article number: 261 (2018)
関連