macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

配列が重複しているGFAを重複のないblunt-ended GFAに変換する GetBlunted

 

 配列グラフは、ゲノムアセンブリとパンゲノミクスという、計算ゲノム科学の2つの異なる分野で重要なツールとして浮上してきた。しかし、このように共通の基盤があるにもかかわらず、微妙に異なるグラフの形式が、パンゲノミクスからゲノムアセンブリへの方法論の進歩の妨げになっている。ゲノムアセンブリでは、エッジは通常、配列間のオーバーラップを示し、オーバーラップする配列は両方のノードで重複して表現される。パンゲノミクスでは、エッジは重複のない配列間の隣接を示し、しばしばblunt adjacenciesと呼ばれる。鈍的な配列グラフのために開発されたアルゴリズムやソフトウェアは、重複配列グラフには一般化できないことが多い。このため、ゲノムアセンブリに役立つはずのパンゲノミクス手法が、事実上サイロ化されている。この論文では、このサイロを解体することを試みる。本著者らは、重複配列グラフを、元のグラフからのwalksを保存した鈍化配列グラフに変換するアルゴリズムを開発した。さらに、このアルゴリズムは、オーバーラップグラフの配列の冗長な表現のほとんどを排除しながら、これを達成する。このアルゴリズムは、ソフトウェアツールGetBluntedとして提供され、十分な時間とメモリを使用しないため、あらゆるゲノムアセンブリパイプラインのボトルネックにならないことが事実上保証されている。

 

 

インストール

condaで環境を作って依存を導入した (ubuntu18)。

Github

git clone https://github.com/vgteam/GetBlunted.git
cd GetBlunted/
mkdir build
cd build
cmake ..
make -j20 install
cd ../bin/

> ./get_blunted -h

GetBlunted v0.0.3

Usage: ./get_blunted [OPTIONS]

 

Options:

  -h,--help                   Print this help message and exit

  -i,--input_gfa TEXT REQUIRED

                              Path to GFA containing overlaps

  -p,--provenance TEXT        Optionally generate a table containing info about the origin of each output node

  -t,--threads UINT           Number of threads to use (maximum)

  -V,--verbose                Print a timed log showing progress/steps

 

 

実行方法

配列の重複があるGFAファイルを指定する。

get_blunted -i input.gfa > bluntified.gfa

 

 

引用

Walk-Preserving Transformation of Overlapped Sequence Graphs into Blunt Sequence Graphs with GetBlunted
Jordan M. Eizenga, Ryan Lorig-Roach, Melissa M. Meredith & Benedict Paten 
Conference paper. First Online: 02 July 2021

https://link.springer.com/chapter/10.1007/978-3-030-80049-9_15