macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

逆位の構造変異を持つノイジーなロングリードの高感度なマッピングツール invMap

 

 PacBioやOxford Nanoporeシークエンサーで作られたロングリードは、ショートリードよりも構造変異(SV)のブレイクポイントに頻繁にまたがっている可能性がある。そのため、既存のロングリードのマッピング手法では、しばしば誤ったアラインメントやバリアントコールが生成される。逆位の領域のアンカーはSVのない領域のアンカーとは非線形であるため、欠失や挿入と比較して、逆位イベントの検出はより困難である。この問題に対処するため、本研究では新しいロングリード・マッピングアルゴリズム(invMapと命名)を紹介する。
invMapは、ノイズがあるロングリードに対して、まず特別にデザインされた連鎖のスコアリング法を用いてアライメント領域を特定し、次にアライメント領域内の残りのアンカーをチェックして逆位を発見する。invMapのベンチマークとして、様々なゲノムとシーケンスカバレッジのシミュレーションデータセットを用いた結果、invMapは競合手法よりも高精度にアラインメント領域を特定し、逆位をコールすることが実証された。NA12878の実際のヒトゲノムシーケンスデータセットは、invMapが競合手法よりも効果的に逆位に対するバリアント候補を見つけることができることを示している。invMapソフトウェアはhttps://github.com/zhang134/invMap.gitから利用できる。

 

インストール

Linux (推奨)、あるいはWindows 7Windows 10が必要。ubuntu20でテストした。

Github

https://github.com/zhang134/invMap

git clone https://github.com/zhang134/invMap.git
cd invMap/
make

$ ./invmap

---------------------------------------------------------------

Usage: invmap [options] target.fa query.fa >output.sam

 

Example: invmap genome.fa reads.fa >reads.sam

 

Options:

    -k        k-mer size (should <= 25), default: 15.

    -w        sample window size, default: 1.

    -t        number of threads, default: 128 (your computer has).

 

 

実行方法

リファレンスとロングリードを指定する。gzip圧縮fastqかクオリティのないfastaファイルも認識する。

./invMap reference.fa reads.fq.gz > invMap.sam

出力はsam形式。bamに変換し、適切なSVコーラーを使って逆位をコールする。

 

引用

invMap: a sensitive mapping tool for long noisy reads with inversion structural variants 
Ze-Gang Wei, Peng-Yu Bu, Xiao-Dan Zhang, Fei Liu, Yu Qian, Fang-Xiang Wu
Bioinformatics, Volume 39, Issue 12, December 2023

 

関連ツール