2020 1/19 コマンドの誤り修正
2020 1/20 twitter追記
2020 6/25 論文追記、リンク切れ更新
次世代シーケンシングにより、ヒト機能ゲノミクス(Morozova and Marra、2008)から微生物メタゲノミクス(Gilbert and Dupont、2011)までの分野で劇的な進歩が可能になった。 次世代研究のデータ分析では、リードをヒトゲノム、ヒトエクソーム、または完全長の微生物ゲノムのコレクションなどの参照データベースにマッピングする必要がある。 マッピングは、シーケンスデータベース検索の特殊なケースであり、クエリシーケンスは短く、データベースシーケンスは長く、シーケンスの類似性は高くなる。 特定のクエリシーケンス(リード)の場合、マッピングの主な目的は、可能であれば最適な一致を報告することである。
URMAPはk-merのハッシュテーブルインデックス、つまり、長さがkの固定長ワードを使用する。ここで、k = 24はヒトゲノムで推奨される。 インデックスは、メモリキャッシュミスを最小限に抑えるため、RAM内の特定のハッシュワード(スロット)に関連する情報を密接に保つように設計されている。リファレンス(ピン)で1回だけ見つかったスロットにフラグが付けられる。 与えられたクエリに対して、URMAPは最初に、リファレンス内で互いに近接している重複しないピンのペアを検索する(ブレース、図1を参照)。 中括弧が見つかった場合、位置合わせが試行され、検索が成功するとすぐに終了する。 それ以外の場合、シードと拡張の戦略(Altschul et al、1990)が続く。
HP
URMAP quick start
https://drive5.com/urmap/manual/quickstart.html
Ultrafast readmapper posted, https://t.co/p3lEmuBjrK, paper: https://t.co/8BrXJSD20F. Email me with bugs and feature requests, I'll post updates promptly.
— Robert Edgar (@RobertEdgarPhD) 2020年1月17日
実行方法
1、create index
urmap -make_ufi hg38.fa -output hg38.ufi
2、mapping
#paired-end
urmap -map2 sample_R1.fastq.gz -reverse sample_R2.fastq.gz \
-ufi hg38.ufi -samout sample.sam
#single
urmap -map sample.fastq.gz -ufi hg38.ufi -samout sample.sam
引用
URMAP, an ultra-fast read mapper
Robert C. Edgar
bioRxiv preprint first posted online Jan. 14, 2020
2020 6/25 追記
URMAP, an ultra-fast read mapper
Robert Edgar
PeerJ, June 24, 2020