PacBioやOxford Nanoporeのような1分子シーケンスの急速な発展に伴い、出力されるリードの長さは増加し続けており、最先端のゲノムアプリケーションに劇的な可能性を与えている。これらのリードをリファレンスゲノムにマッピングすることは、ダウンストリーム解析のための最も基本的で計算負荷の高いステップとなる。しかし、これらの長いリードは、ショートリードに比べてシーケンスエラーが多く、構造変異(SV)のブレイクポイントをまたぐ可能性が高いため、多くの未アラインリードや部分アラインリードが発生することが知られている。その結果、これらの手法はエンド・ツー・エンドのアライメントを得るよりも、クエリリードに対する局所的なマッピング結果を得ることに重点を置いている。本論文では、kngMapを紹介する。kngMapはk-mer近傍グラフを用いた新しいマッパーで、特に長いノイズの多いSMSリードをリファレンス配列にアライメントするために設計されている。シミュレーションと実データを用いたベンチマーク実験により、kngMapと他の10種類のSMSマッピングツールの性能を比較した結果、kngMapはより多くのリードと塩基をリファレンスゲノムにアライメントできる高い感度を持ち、リード全体とリード中のSVの異なるカテゴリについて連続アライメントできることが示された。kngMapのソースコードは、https://github.com/zhang134/kngMap から無料でダウンロードできる(学術利用のみ)。
インストール
ハードウェア
git clone https://github.com/zhang134/kngMap.git
cd kngMap/
make -j4
> ./kngmap
$ ./kngmap
Usage: ./kngmap [Options]
Options
-g input genome filename in fasta format, required
-r input reads filename in fasta format, required
-p position filename, required
-o output filename, required
-t number of threads, default 1; with 0, all CPUs will be used
> ./locate
$ ./locate
Usage: locate [options] <target.fa> <query.fa> >pos.txt
Example: locate genome.fa sequence.fa >pos.txt
Options:
-k int k-mer size (between 11-25) [20]
-t int number of threads [your computer has]
実行方法
1、検索インデックスの作成
locate -t 4 genome.fa reads.fa > pos
=> posができる。
2、ゲノムとfasta形式のシークエンシングリードを指定する。
kngmap -g genome.fa -r reads.fa -p pos.txt -n reads_num -o kngmap_aligned.txt
インデックス作成途中でセグメンテーション違反が起きる(環境;os: ubuntu18LTS、CPU: TR3990X、memory:DDR4ノンECCメモリ)。
引用
kngMap: Sensitive and Fast Mapping Algorithm for Noisy Long Reads Based on the K-Mer Neighborhood Graph
Ze-Gang Wei, Xing-Guo Fan, Hao Zhang, Xiao-Dan Zhang, Fei Liu, Yu Qian, Shao-Wu Zhang
Front Genet. 2022 May 5;13:890651