macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ノイズの多いロングリードの高感度で高速なマッピングを行う kngMap

 

 PacBioやOxford Nanoporeのような1分子シーケンスの急速な発展に伴い、出力されるリードの長さは増加し続けており、最先端のゲノムアプリケーションに劇的な可能性を与えている。これらのリードをリファレンスゲノムにマッピングすることは、ダウンストリーム解析のための最も基本的で計算負荷の高いステップとなる。しかし、これらの長いリードは、ショートリードに比べてシーケンスエラーが多く、構造変異(SV)のブレイクポイントをまたぐ可能性が高いため、多くの未アラインリードや部分アラインリードが発生することが知られている。その結果、これらの手法はエンド・ツー・エンドのアライメントを得るよりも、クエリリードに対する局所的なマッピング結果を得ることに重点を置いている。本論文では、kngMapを紹介する。kngMapはk-mer近傍グラフを用いた新しいマッパーで、特に長いノイズの多いSMSリードをリファレンス配列にアライメントするために設計されている。シミュレーションと実データを用いたベンチマーク実験により、kngMapと他の10種類のSMSマッピングツールの性能を比較した結果、kngMapはより多くのリードと塩基をリファレンスゲノムにアライメントできる高い感度を持ち、リード全体とリード中のSVの異なるカテゴリについて連続アライメントできることが示された。kngMapのソースコードは、https://github.com/zhang134/kngMap から無料でダウンロードできる(学術利用のみ)。

 

インストール

ハードウェア

Github

git clone https://github.com/zhang134/kngMap.git
cd kngMap/
make -j4

> ./kngmap

$ ./kngmap

 

 

Usage: ./kngmap [Options]

 

Options

 

   -g    input genome filename in fasta format, required

   -r    input reads filename in fasta format, required

   -p    position filename, required

   -o    output filename, required

 

   -t    number of threads, default 1; with 0, all CPUs will be used

 

> ./locate

$ ./locate

 

Usage: locate [options] <target.fa> <query.fa> >pos.txt

Example: locate genome.fa sequence.fa >pos.txt

 

Options:

    -k int       k-mer size (between 11-25) [20]

    -t int       number of threads [your computer has]

 

 

実行方法

1、検索インデックスの作成

locate -t 4 genome.fa reads.fa > pos

=> posができる。

 

2、ゲノムとfasta形式のシークエンシングリードを指定する。

kngmap -g genome.fa -r reads.fa -p pos.txt -n reads_num -o kngmap_aligned.txt

 

インデックス作成途中でセグメンテーション違反が起きる(環境;os: ubuntu18LTS、CPU: TR3990X、memory:DDR4ノンECCメモリ)。

引用

kngMap: Sensitive and Fast Mapping Algorithm for Noisy Long Reads Based on the K-Mer Neighborhood Graph
Ze-Gang Wei, Xing-Guo Fan, Hao Zhang, Xiao-Dan Zhang, Fei Liu, Yu Qian, Shao-Wu Zhang
Front Genet. 2022 May 5;13:890651