macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

アセンブル結果をCore gene setの検出数で評価する BUSCO

 

ゲノムのアセンブルやde novo transcriptomeの評価手法の1つに、Core gene setがアセンブルされた配列の中にどれだけあるか調べる方法がある(core genesは構成的に発現していると考える)。そのようなツールとしてCEGMAがよく知られている。CEGMAはversion2.5までアップーデートされていたが、2015年にはその後継のBUSCOが発表され、CEGMAはサポートが中止された。BUSCOはCEGMA3.0とも言うべきツールで、CEGMAより随分高速化されているらしい。ここではBUSCOを紹介する。

 

開発者のブログにCEGMAサポート停止の経緯が詳しく書かれている。リンクを貼っておきます。

Goodbye CEGMA, hello BUSCO! — ACGT

 

BUSCOは、90%以上の種でsingle copy orthologousな遺伝子をcore geneとして定義し、それをデータベースにしてクエリー配列を検索する。10%でなく90パーセントで線を引いたのは、一部の種ではcore geneが複製したり、アセンブルが不完全で抜けているため見つからなかったなどの理由で100%保存にできなかったためらしい。そのため90という数値に生物的な意味はないが、core geneヒット数が90パーセントを大きく割るようならおそらくアセンブルが不完全と判断できる。

 

マニュアルは公式HPからダウンロードできる。

BUSCO

 

インストール

brew install busco

*CEGMAもbrewでインストール可能。

 

ラン

解析には、Core geneのデータベースを用意する必要がある。データセットは以下のリンクからダウンロードする。バクテリアも用意されている。

 

シロイヌナズナのデータなら陸上植物のデータベースを使う。wgetでダウンロードする。

wget http://busco.ezlab.org/v2/datasets/embryophyta_odb9.tar.gz

ダウンロードが終わったら解凍する。遺伝子リストは解凍したディレクトリのinfo/~info.txt.gzに保存されている。中身を見てみる。

user$ gzip -dc embryophyta_3193_OrthoDB9_orthogroup_info.txt.gz |head -10 |cut -f 1-2

OrthoGroupID Description

EOG09360002 "Zinc finger, UBR-type"

EOG0936000A "Zinc finger, RING/FYVE/PHD-type"

EOG0936001N "PIK-related kinase"

EOG0936001W "Uncharacterized protein"

EOG09360025 "SNF2-related, N-terminal domain"

EOG0936003Z "P-loop containing nucleoside triphosphate hydrolases superfamily protein"

EOG0936004R "Telomere length regulation protein, conserved domain"

EOG0936004W "DNA-directed DNA polymerase, family B"

EOG0936008E "Zinc finger, RING/FYVE/PHD-type"

左端1、2列目にIDとdescriptionがある。植物のcore geneデータベースは1440遺伝子ある。

 

 

Genome assembly

BUSCO -g scaffolds.fasta -o OUTPUT -l embryophyta_odb9 -m genome -c 8
  • -g Input file in fasta format. Can be a genome, proteome or transcriptome.
  • -o output
  • -l lineage,lineage Which BUSCO lineage to be used.(ここではembryophyta_odb9を指定)
  • -m mode which module to run the analysis to run, valid modes are 'all'(genome assembly), 'OGS' (gene set / proteome) and 'trans' (transcriptome). (Defaults all)
  • -c Number of threads/cores to use.

 

Transcriptome 

BUSCO -g transcripts.fasta -o OUTPUT -l embryophyta_odb9 -m trans -c 8

アラビのRNAをde novoでアセンブルした配列(fasta)をクエリーとしている。

  • -l ここではembryophyta_odb9を指定

アラビのtranscriptomeデータをde novo assemblyして作った配列(54000 transcrpts)を解析したところ、10分くらいかかった。

 

full_table_OUTPUT~が詳細なデータとなる。またshort_summary_OUTPUT_PLANTに結果がまとめられている。summaryには以下のような情報が載っている。

#Summarized BUSCO benchmarking for file: transcripts.fasta 

#BUSCO was run in mode: trans

Summarized benchmarks in BUSCO notation

 : C:0%[D:0%],F:0%,M:0%,n:1440

 1357 Complete BUSCOs

 896 Complete and single-copy BUSCOs

 461 Complete and duplicated BUSCOs

 17 Fragmented BUSCOs

 66 Missing BUSCOs

 1440 Total BUSCO groups searched

 

植物用のcore geneのカタログは合計1440遺伝子あるが、1357見つかり、そのうち461はduplicateしているとの結果が出た。また、1440遺伝子のうち66が見つからないと出ている。

missing_buscos_list~には見つからなかった66のIDが載っている。orthoDBを検索して、どんな遺伝子がsingle copy orthologousとして見つからなかったか確認する。

Ortholog Search | cegg.unige.ch Computational Evolutionary Genomics Group

 

 今回の検証ではシロイヌナズナのリファレンスcDNAを使っている。ハウスキーピング遺伝子の発現がゼロになるとは考えにくいので、ナズナのゲノムにはmissingの66遺伝子の大半が存在しないということだろうか。

 

 

 

引用

BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs.
Felipe A. Simão, Robert M. Waterhouse, Panagiotis Ioannidis, Evgenia V. Kriventseva, and Evgeny M. Zdobnov
Bioinformatics, published online June 9, 2015 | Abstract | Full Text PDF | doi: 10.1093/bioinformatics/btv351
Supplementary Online Materials: SOM