マッピングとは、あるDNAリードの元の位置を参照配列(通常はゲノム)の中から探し出すプロセスである。ショートリードマッパーは、ハイスループットシーケンシングを伴うほとんどのアプリケーションで使用されるソフトウェアツールである。そのため、ニーズの増加に対応するためには、継続的に改良する必要がある。最近のマッパーは、シーディングヒューリスティックに依存しているため、高速ではあるが正確性に欠ける。自分の出力の信頼性を計算する方法がないため、マッパーはこれまで品質の異なる近似値を使用してきた。ここでは、正確なマッピングの信頼性を提供する能力である「忠実性」に注目し、ショートリードを忠実にマッピングする戦略を考案した。鍵となるのは、マッピングプロセスの信頼性を左右する要素である、ターゲットリファレンスの反復性を推定することである。このアプローチにより、これまでにない信頼性でマッピングできるリードのクラスが存在することが明らかになった。この戦略は、最先端のマッパーであるBWA-MEMやBowtie2に匹敵するものであり、忠実に再現できるという利点がある。このソフトウェアはオープンソースで、https://github.com/gui11aume/mmp からダウンロードできる。
インストール
git clone https://github.com/gui11aume/mmp
cd mmp
make
> ./mmp -h
# ./mmp -h
MEM Mapper Prototype version 1.0
Usage:
index: mmp --index index.fasta
map: mmp [-t 1] index.fasta reads.fasta
Options:
-t: number of threads (default: 1)
実行方法
1、indexing
mmp --index genome.fasta
2、mapping
リファレンスのfastaとraw fastq(gzip圧縮のfastqを扱うにはzcatが必要)を指定する。
mmp -t 8 genome.fasta reads.fastq > out.sam
引用
Mapping short reads, faithfully
Eduard Valera Zorita, Ruggero Cortini, Guillaume J. Filion
bioRxiv, Posted February 11, 2020