ゲノムの配列同一性を比較する BubbZ - macでインフォマティクス

2021 7/31 タイトル修正

　ペアの全ゲノム相同性マッピングは、一対のゲノム間で相同性のある区間のすべてのペアを見つける問題です。ここ数年、利用可能な全ゲノムの数が飛躍的に増加しているため、よりスケーラブルなホモロジーマッパーが必要とされている。本論文では、全ゲノムのペアワイズホモロジーマッピングを計算するためのアルゴリズム(BubbZ)を開発した。BubbZは、コンパクト化されたde Bruijnグラフの鎖を計算するアルゴリズムに基づいている。BubbZの評価は、シミュレーションデータ、16種類のマウスゲノムからなるデータセット、1,600種類のサルモネラゲノムからなる大規模データセットで行いました。その結果、MashMap2やMinimap2と比較して、同程度の精度を維持しつつ、最大で約1桁の速度向上が見られました。

インストール

WSL2環境でビルドした。

Github

sudo apt-get install git cmake g++ libtbb-dev

git clone https://github.com/medvedevgroup/BubbZ
cd BubbZ/
mkdir build
git submodule update --init --recursive
cd build
cmake .. -DCMAKE_INSTALL_PREFIX=<path to install the binaries>
make install

> bubbz -h

$ bubbz -h
Usage: [-k <odd integer>] [-b <integer>] [-m <integer>] [-a <integer>] [-t <integer>] [-f <integer>] [-o <output_directory>] <input file>

実行方法

bubbz genome1.fa genome2.fa

出力はcollinear blocksの座標を含むGFFファイルとしてbubbz_out/に保存される。

精度に影響するパラメータ（Githubより）

k値　このパラメータは、使用されるde Bruijnグラフの順序を定義し、一方では感度、他方では速度とメモリ使用量のトレードオフを制御する。一般的にkが低いほどアライメントは遅くなり、感度も高くなる。バクテリアのような小さなデータセットではk=15、哺乳類サイズのゲノムではk=21を推奨する。デフォルトは21。
哺乳類ゲノムには多くのリピートが含まれているため、グラフが大きく、複雑になる。この問題に対処するために、BubbZはある閾値以上の頻度を持つすべてのk-merを削除するが、これは-aオプションで制御される。例えば、入力ゲノムの最大の遺伝子ファミリーがN個のメンバーを持つ場合、-aを少なくともN * 2に設定しする。ただし、この値を大きくすると、計算速度が著しく低下する可能性がある。デフォルト値は 150 。
BubbZは、グラフの中の共通の頂点の長いチェーンを探すことで、グラフを分析する。鎖のギャップサイズはベースペアの数で測定されるパラメータによって制限され、-bで制御できる。bのデフォルト値は200で、値を大きくすると、分岐した配列の再現性が向上するが、-bを大きくしすぎると、精度が低下する。
BubbZは、ベースペアで指定された閾値より長いブロックのみを出力する。-m <integer>で設定する。デフォルト値は200。

引用

Scalable Pairwise Whole-Genome Homology Mapping of Long Genomes with BubbZ
Ilia Minkin, Paul Medvedev

iScience. 2020 Jun 26; 23(6): 101224