macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

GC-skewと複数アセンブルデータを使ってバクテリアのゲノムアセンブリを改善するGUIツール GFinisher

 

GFinisherはゲノムのアセンブルで得たコンティグを、似たゲノムの情報と他のアセンブルツールのコンティグ情報を使い、contiguityを改善するツール。始めに似たゲノムにコンティグを貼り付け、他のコンティグ情報も使いターゲットのコンティグを並べ替える。それからGC-skew情報を使い、GC-skewが不自然なジャンプを起こす臨界点でコンティグを切断し、並べ替えるというステップで動作する(論文図1)。この各ステップごとに、出力ファイルが生成され、レポート、コンティグシーケンス、GCスキューグラフィックス、アセンブリ比較用のドットプロットグラフィックス、GCスキュークリティカルポイントリスト、QUAST実行スクリプトが生成される。GAGE-Bのデータセットを使った実験で、コンティグの平均数が172.9から23.5に大きく減ったことを示している。

 

 

公式ページ

GFinisher

マニュアル

http://gfinisher.sourceforge.net/manual.php

 

インストール

依存

  • blast+

実行形式のjavaのバイナリがダウンロードできる。

SorceForge

https://sourceforge.net/projects/gfinisher/

https://sourceforge.net/projects/gfinisher/

#bioconda (link)
conda install -c bioconda -y gfinisher

 

 

実行方法

3つのモードと、それを全て走らすcompleteモードがある。

  • Misassemblies detection - points of maximum and minimum in Fuzzy GC Skew curve are used to identify probable spurious assemblies.
  • jContigSort - ordering contig base and reference genome.
  • jFGap - combine alternatives assemblies to close gap.

 

completeモードを走らせる。マニュアルに従い、GAGEのBacteroides fragilis のテストデータをダウンロードする。

アセンブルデータ GAGE-B

リファレンス Here

起動。

java -Xms2G -Xmx4G -jar GenomeFinisher.jar

 

OLCのMaSuRCAでアセンブルしたスキャッホールドを、de brujib graphのアセンブルツール5つの結果で伸ばすことを試みる。GUIのwindowが出てくるので、まずblastのパスを指定する。自分の場合はbrewでblastを入れており、/usr/local/binにはblastnとmakeblastdbのシンボリックリンクしかないので、blastのフルパスは以下のようになる。

f:id:kazumaxneo:20180203152209j:plain

 

ダウンロードしたscaffoldsとcontig、リファレンスと出力パスを指定する。

f:id:kazumaxneo:20180203152212j:plain

 

左上のランボタンを押すと解析が始まる。終わるまで10分以上かかる。

f:id:kazumaxneo:20180203152612j:plain

./out/なら、カレントディレクトリのout/に結果のFASTAファイルなどが出力される。

f:id:kazumaxneo:20180203152731j:plain

 

out/verbose/にもいくつかレポートが出力される。

下は6回サイクル後のdot plotとGC skewのレポート。

f:id:kazumaxneo:20180203152959p:plain

 

f:id:kazumaxneo:20180203153026p:plain

 

f:id:kazumaxneo:20180204151809p:plain

 

 

 

QUESTwebサーバー(http://quast.bioinf.spbau.ru)でも確認してみる。

 左端の破線がリファレンス、その右の黒がGFinisherで改善されたcontigとなる。他のアセンブルツールよりcontiguityが良くなっている。

f:id:kazumaxneo:20180203154057j:plain

この領域付近はよく繋がっている(一番下がGFinisher出力)

f:id:kazumaxneo:20180203154053j:plain

 

近縁なリファレンスがなければリファレンスなしで実行することもできますが、その場合は大きく精度が低下するようです。また、そっくりなリファレンスがあっても結果は必ずしも正しいわけでなく、ゲノムによってはキメラのドラフトゲノムを作ってしまう可能性があります。他の手法でクオリティコントロールを行うなどして、注意して使ってください。

 

引用

GFinisher: a new strategy to refine and finish bacterial genome assemblies.

Guizelini D, Raittz RT, Cruz LM, Souza EM, Steffens MB, Pedrosa FO.

Sci Rep. 2016 Oct 10;6:34963.