macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

アセンブリ結果を評価する QUAST

2019 4/12 quast-lg追記

 

 QUASTはspadesアセンブラで有名なAlgorithmic Biology Labのチームが発表した、アセンブリの性能や精度を評価するツール。web版とコマンドラインでランするローカル版がある。

 

QUASTマニュアル

ダウンロード

http://bioinf.spbau.ru/quast

ローカル版はbrewでも導入できる。

 

 webサービス

http://quast.bioinf.spbau.ru

f:id:kazumaxneo:20170822231653j:plain

Assembliesのところにcontig.fastaを指定、Genomeのところにリファレンスゲノムを指定してランする。リファレンスゲノムがなくても、N(G)50などのアセンブルの基礎的な評価情報は出力してくれる。

 

=> 解析例 (E.coli)。

f:id:kazumaxneo:20170822232248j:plain

Extended reportをクリックすると詳細な情報を表示。

f:id:kazumaxneo:20170822232432j:plain

 contigの長さの累積サイズ。左に寄っているほどアセンブル効率が良いことを表す。この例ではSOAPdenovo2は他より劣ることがわかる。

 

レファレンスを指定して解析した場合、viewerに移動するとアセンブルのエラーが起こっていそうな部位を確認できる。

f:id:kazumaxneo:20170823124430j:plain

赤い領域がリファンレスとどこかでマッチしなかったcontig。上ではcontig左末端でエラーが起こっている。上記では遺伝子予測も行なっているので、orfも表示されている。

 

 

 ローカル環境でのラン

quast Contigs.fa -R reference.fa -o results -t 8
  • -o Directory to store all result files [default: quast_results/results_<datetime>]
  • -R Reference genome file
  • -t Maximum number of threads [default: 25% of CPUs]

指定したディレクトリにhtmlファイルとPDFファイルが出力される。

Icarus Browserで確認する(htmlを開く)。

N50やNG50などのcontigは違う色がつき、N50などと表記される。

f:id:kazumaxneo:20170822234620j:plain

 

report.pdfにもいくつかの図が出力される。

f:id:kazumaxneo:20170901231442j:plain

f:id:kazumaxneo:20170901231512j:plain

f:id:kazumaxneo:20170901231508j:plain

f:id:kazumaxneo:20170901231515j:plain 

 bedやgbkファイルがあれば指定することでgeneの絵もviewerに表示される。 

quast Contigs.fa -R reference.fa -o results -G reference.bed -t 8
  • -G File with gene coordinates in the reference (GFF, BED, NCBI or TXT)
  • -m Lower threshold for contig length [default: 500]

 

引用

QUAST: quality assessment tool for genome assemblies,

Alexey Gurevich, Vladislav Saveliev, Nikolay Vyahhi, Glenn Tesler

Bioinformatics (2013) 29 (8): 1072-1075.

 

 

 

アノテーション情報がない生物の場合、はRASTやprokkaなどで作成できます。

prokkaは以下でアノテーションをつけてgenbankファイルやbed、gffファイルなど出力することができます。

 

関連

ラージゲノムに対応