GFinisherはゲノムのアセンブルで得たコンティグを、似たゲノムの情報と他のアセンブルツールのコンティグ情報を使い、contiguityを改善するツール。始めに似たゲノムにコンティグを貼り付け、他のコンティグ情報も使いターゲットのコンティグを並べ替える。それからGC-skew情報を使い、GC-skewが不自然なジャンプを起こす臨界点でコンティグを切断し、並べ替えるというステップで動作する(論文図1)。この各ステップごとに、出力ファイルが生成され、レポート、コンティグシーケンス、GCスキューグラフィックス、アセンブリ比較用のドットプロットグラフィックス、GCスキュークリティカルポイントリスト、QUAST実行スクリプトが生成される。GAGE-Bのデータセットを使った実験で、コンティグの平均数が172.9から23.5に大きく減ったことを示している。
公式ページ
マニュアル
http://gfinisher.sourceforge.net/manual.php
インストール
依存
- blast+
実行形式のjavaのバイナリがダウンロードできる。
SorceForge
https://sourceforge.net/projects/gfinisher/
https://sourceforge.net/projects/gfinisher/
#bioconda (link)
conda install -c bioconda -y gfinisher
実行方法
3つのモードと、それを全て走らすcompleteモードがある。
- Misassemblies detection - points of maximum and minimum in Fuzzy GC Skew curve are used to identify probable spurious assemblies.
- jContigSort - ordering contig base and reference genome.
- jFGap - combine alternatives assemblies to close gap.
completeモードを走らせる。マニュアルに従い、GAGEのBacteroides fragilis のテストデータをダウンロードする。
リファレンス Here
起動。
java -Xms2G -Xmx4G -jar GenomeFinisher.jar
OLCのMaSuRCAでアセンブルしたスキャッホールドを、de brujib graphのアセンブルツール5つの結果で伸ばすことを試みる。GUIのwindowが出てくるので、まずblastのパスを指定する。自分の場合はbrewでblastを入れており、/usr/local/binにはblastnとmakeblastdbのシンボリックリンクしかないので、blastのフルパスは以下のようになる。
ダウンロードしたscaffoldsとcontig、リファレンスと出力パスを指定する。
左上のランボタンを押すと解析が始まる。終わるまで10分以上かかる。
./out/なら、カレントディレクトリのout/に結果のFASTAファイルなどが出力される。
out/verbose/にもいくつかレポートが出力される。
下は6回サイクル後のdot plotとGC skewのレポート。
QUESTwebサーバー(http://quast.bioinf.spbau.ru)でも確認してみる。
左端の破線がリファレンス、その右の黒がGFinisherで改善されたcontigとなる。他のアセンブルツールよりcontiguityが良くなっている。
この領域付近はよく繋がっている(一番下がGFinisher出力)
近縁なリファレンスがなければリファレンスなしで実行することもできますが、その場合は大きく精度が低下するようです。また、そっくりなリファレンスがあっても結果は必ずしも正しいわけでなく、ゲノムによってはキメラのドラフトゲノムを作ってしまう可能性があります。他の手法でクオリティコントロールを行うなどして、注意して使ってください。
引用
GFinisher: a new strategy to refine and finish bacterial genome assemblies.
Guizelini D, Raittz RT, Cruz LM, Souza EM, Steffens MB, Pedrosa FO.
Sci Rep. 2016 Oct 10;6:34963.