配列グラフは、ゲノムアセンブリとパンゲノミクスという、計算ゲノム科学の2つの異なる分野で重要なツールとして浮上してきた。しかし、このように共通の基盤があるにもかかわらず、微妙に異なるグラフの形式が、パンゲノミクスからゲノムアセンブリへの方法論の進歩の妨げになっている。ゲノムアセンブリでは、エッジは通常、配列間のオーバーラップを示し、オーバーラップする配列は両方のノードで重複して表現される。パンゲノミクスでは、エッジは重複のない配列間の隣接を示し、しばしばblunt adjacenciesと呼ばれる。鈍的な配列グラフのために開発されたアルゴリズムやソフトウェアは、重複配列グラフには一般化できないことが多い。このため、ゲノムアセンブリに役立つはずのパンゲノミクス手法が、事実上サイロ化されている。この論文では、このサイロを解体することを試みる。本著者らは、重複配列グラフを、元のグラフからのwalksを保存した鈍化配列グラフに変換するアルゴリズムを開発した。さらに、このアルゴリズムは、オーバーラップグラフの配列の冗長な表現のほとんどを排除しながら、これを達成する。このアルゴリズムは、ソフトウェアツールGetBluntedとして提供され、十分な時間とメモリを使用しないため、あらゆるゲノムアセンブリパイプラインのボトルネックにならないことが事実上保証されている。
Celebrating the holiday by releasing v1.0.0 of GetBlunted. Pesky overlaps complicating your analyses on assembly graphs? Smoke them away with this handy tool so you can work with nice blunt-ended graphs :)https://t.co/4kfyxjLLTE
— Jordan Eizenga (@jeizenga) April 20, 2022
インストール
condaで環境を作って依存を導入した (ubuntu18)。
git clone https://github.com/vgteam/GetBlunted.git
cd GetBlunted/
mkdir build
cd build
cmake ..
make -j20 install
cd ../bin/
> ./get_blunted -h
GetBlunted v0.0.3
Usage: ./get_blunted [OPTIONS]
Options:
-h,--help Print this help message and exit
-i,--input_gfa TEXT REQUIRED
Path to GFA containing overlaps
-p,--provenance TEXT Optionally generate a table containing info about the origin of each output node
-t,--threads UINT Number of threads to use (maximum)
-V,--verbose Print a timed log showing progress/steps
実行方法
配列の重複があるGFAファイルを指定する。
get_blunted -i input.gfa > bluntified.gfa
引用
Walk-Preserving Transformation of Overlapped Sequence Graphs into Blunt Sequence Graphs with GetBlunted
Jordan M. Eizenga, Ryan Lorig-Roach, Melissa M. Meredith & Benedict Paten
Conference paper. First Online: 02 July 2021
https://link.springer.com/chapter/10.1007/978-3-030-80049-9_15