ゲノムリードデータセットは、一般的に使用されている CrossMap ツールなどの様々なツールを用いて、あるリファレンスから別の類似したリファレンス(例えば、2つのバージョンの異なる間や2つの類似した種間)へ迅速かつ効率的に再マッピングすることができる。ゲノムデータセットとリファレンスが爆発的に増加している現在、高性能なリマッピングツールは、ゲノムアセンブリと解析の計算需要に対応するためにさらに重要になると思われる。ゲノムアセンブリ間でリードをリマップするための高速かつ効率的なツールFastRemapを提供する。FastRemapはCrossMapと比較して、最大7.19倍(平均5.97倍)の高速化と、61.7%(平均80.7%)のメモリ消費量の削減を実現した。FastRemapはC++で記述されている。ソースコードとユーザーマニュアルは以下の場所で自由に入手できる: github.com/CMU-SAFARI/FastRemap。
インストール
公開されているdocker imageを使ってテストした。
git clone --recurse-submodules https://github.com/CMU-SAFARI/FastRemap.git FastRemap
cd FastRemap/zlib/
./configure
make
cd ../
#docker(link)
docker pull alkanlab/fastremap:latest
> FastRemap
Usage: ./FastRemap [file_type] [chain file] [input file] [output unmapped file] [output file]
Positional arguments:
[file_type]: bam, sam, or bed file depending on input file
[chain file]: chain file (https://genome.ucsc.edu/goldenPath/help/chain.html) describes regions of similarity between references
[input file]: file containing elements to be remapped based on chain file
[output unmapped file]: file containing all the elements that couldnt be remapped from the input file based on the provided chain file
[output file]: file containing all the remapped elements from the input file
Optional arguments:
--append-tags (-a) to append tags in output bam file
--mean (-m) to set insert size
--stdev (-s) to set insert_size_stdev
--times (-t) to set insert_size_fold
テストラン
remappingするファイルフォーマットの種類、リファレンス間の相同性を示したchainファイル、入力のbam、unmapになったリード、remappingされたリードの出力の順番に指定する。
cd FastRemap/test_data/
docker run -itv $PWD:/data -w /data --rm alkanlab/fastremap:latest bam ce6ToCe10.over.chain little.bam test.unmapped test.out
出力
引用
FastRemap: A Tool for Quickly Remapping Reads between Genome Assemblies Get access Arrow
Jeremie S Kim, Can Firtina, Meryem Banu Cavlak, Damla Senol Cali, Can Alkan, Onur Mutlu
Bioinformatics, Published: 17 August 2022