PacBioやOxford Nanoporeシークエンサーで作られたロングリードは、ショートリードよりも構造変異(SV)のブレイクポイントに頻繁にまたがっている可能性がある。そのため、既存のロングリードのマッピング手法では、しばしば誤ったアラインメントやバリアントコールが生成される。逆位の領域のアンカーはSVのない領域のアンカーとは非線形であるため、欠失や挿入と比較して、逆位イベントの検出はより困難である。この問題に対処するため、本研究では新しいロングリード・マッピング・アルゴリズム(invMapと命名)を紹介する。
invMapは、ノイズがあるロングリードに対して、まず特別にデザインされた連鎖のスコアリング法を用いてアライメント領域を特定し、次にアライメント領域内の残りのアンカーをチェックして逆位を発見する。invMapのベンチマークとして、様々なゲノムとシーケンスカバレッジのシミュレーションデータセットを用いた結果、invMapは競合手法よりも高精度にアラインメント領域を特定し、逆位をコールすることが実証された。NA12878の実際のヒトゲノムシーケンスデータセットは、invMapが競合手法よりも効果的に逆位に対するバリアント候補を見つけることができることを示している。invMapソフトウェアはhttps://github.com/zhang134/invMap.gitから利用できる。
インストール
Linux (推奨)、あるいはWindows 7、Windows 10が必要。ubuntu20でテストした。
https://github.com/zhang134/invMap
git clone https://github.com/zhang134/invMap.git
cd invMap/
make
$ ./invmap
---------------------------------------------------------------
Usage: invmap [options] target.fa query.fa >output.sam
Example: invmap genome.fa reads.fa >reads.sam
Options:
-k k-mer size (should <= 25), default: 15.
-w sample window size, default: 1.
-t number of threads, default: 128 (your computer has).
実行方法
リファレンスとロングリードを指定する。gzip圧縮fastqかクオリティのないfastaファイルも認識する。
./invMap reference.fa reads.fq.gz > invMap.sam
出力はsam形式。bamに変換し、適切なSVコーラーを使って逆位をコールする。
引用
invMap: a sensitive mapping tool for long noisy reads with inversion structural variants
Ze-Gang Wei, Peng-Yu Bu, Xiao-Dan Zhang, Fei Liu, Yu Qian, Fang-Xiang Wu
Bioinformatics, Volume 39, Issue 12, December 2023
関連ツール