macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノムアセンブリ間でリードを素早くリマッピングする FastRemap

 

 ゲノムリードデータセットは、一般的に使用されている CrossMap ツールなどの様々なツールを用いて、あるリファレンスから別の類似したリファレンス(例えば、2つのバージョンの異なる間や2つの類似した種間)へ迅速かつ効率的に再マッピングすることができる。ゲノムデータセットとリファレンスが爆発的に増加している現在、高性能なリマッピングツールは、ゲノムアセンブリと解析の計算需要に対応するためにさらに重要になると思われる。ゲノムアセンブリ間でリードをリマップするための高速かつ効率的なツールFastRemapを提供する。FastRemapはCrossMapと比較して、最大7.19倍(平均5.97倍)の高速化と、61.7%(平均80.7%)のメモリ消費量の削減を実現した。FastRemapはC++で記述されている。ソースコードとユーザーマニュアルは以下の場所で自由に入手できる: github.com/CMU-SAFARI/FastRemap。

 

インストール

公開されているdocker imageを使ってテストした。

git clone --recurse-submodules https://github.com/CMU-SAFARI/FastRemap.git FastRemap
cd FastRemap/zlib/
./configure
make
cd ../

#docker(link)
docker pull alkanlab/fastremap:latest

> FastRemap

Usage: ./FastRemap [file_type] [chain file] [input file] [output unmapped file] [output file]

 

Positional arguments:

      [file_type]:            bam, sam, or bed file depending on input file

      [chain file]:           chain file (https://genome.ucsc.edu/goldenPath/help/chain.html) describes regions of similarity between references

      [input file]:           file containing elements to be remapped based on chain file

      [output unmapped file]: file containing all the elements that couldnt be remapped from the input file based on the provided chain file

      [output file]:          file containing all the remapped elements from the input file

 

Optional arguments:

      --append-tags (-a) to append tags in output bam file

      --mean (-m) to set insert size

      --stdev (-s) to set insert_size_stdev

      --times (-t) to set insert_size_fold

 

 

テストラン

remappingするファイルフォーマットの種類、リファレンス間の相同性を示したchainファイル、入力のbam、unmapになったリード、remappingされたリードの出力の順番に指定する。

cd FastRemap/test_data/
docker run -itv $PWD:/data -w /data --rm alkanlab/fastremap:latest bam ce6ToCe10.over.chain little.bam test.unmapped test.out

出力

 

引用

FastRemap: A Tool for Quickly Remapping Reads between Genome Assemblies Get access  Arrow
Jeremie S Kim,  Can Firtina,  Meryem Banu Cavlak,  Damla Senol Cali,  Can Alkan, Onur Mutlu
Bioinformatics, Published: 17 August 2022