2021 5/12 ツイート追記
全ゲノムやトランスクリプトームなどの包括的な配列情報へのアクセスが増加するとともに、それらの品質を評価する必要性が高まっている。N50などのシーケンス長に基づくメトリックが標準になったが、これはアセンブリ品質の1つの側面のみを評価する。逆に、事前に選択されたリファレンスタンパク質をコードする遺伝子のカバレッジを分析すると、重要なコンテンツベースの品質評価が提供されるが、この目的で現在利用可能なパイプラインであるCEGMAおよびBUSCOには、ユーザーにとって使いやすいインターフェイスを持たない。ここでは、(i)以前に開発されたパイプラインCEGMAおよびBUSCOによるシーケンスセットのオンデマンドの完全性評価、および(ii)事前計算された完全性スコアの閲覧のためのオンラインツールを提供する、新しいWebサーバーgVolanteを紹介する。参照遺伝子のカバレッジだけでなく、配列の長さ(N50長さなど)にもとづいてgVolanteレポートのスコアで実行される完全性評価により、複数の側面での品質管理が可能になる。 gVolanteを使用すると、元のアセンブリの品質を複数のバージョン間(プログラムの選択やパラメーターの調整などで取得)で比較し、データベースセクションにあるパブリックリソースのスコアと比較して評価できる。gVoalteはhttps://gvolante.riken.jp/で無料で利用できる。
#gVolante https://t.co/yBX0v1NEbi now provides assessment of genome/transcriptome sequence sets using BUSCO v4 & v5, in addition to its earlier versions. Some comparative analysis between different BUSCO settings will be covered in the talk by Shigehiro Kuraku at #PacBioJpUGM.
— 🧬Omics Core & Kuraku Lab in Kobe RIKEN (@phyloinfokobe) 2021年5月12日
TogoTVによるチュートリアルムービー「gVolante(ジーボランチ)を使ってゲノムやトランスクリプトームアセンブリの完全度を評価する」https://t.co/ol3Ks6sBTE をつくっていただきました。#gvolante 点は取りませんが、ゲームの舵取りをする「ボランチ」、ってことで命名したツールです。
— Kuraku Lab🧬自然派ゲノム研究室🦈 (@phyloinfokobe) 2019年9月13日
Here is the link to the poster about assembly QC with #gVolante being presented at #PAGXXVI https://t.co/JNMoHkbHp1
— Kuraku Lab🧬自然派ゲノム研究室🦈 (@phyloinfokobe) 2018年1月17日
HP
Tutorial
https://gvolante.riken.jp/analysis.html にアクセスする。
1、multi-fastaファイルを指定する。各種圧縮形式にも対応している (.gz, .tgz, .bz2, .tbz, .tar or .zip).
UPLOADをクリック。
2、ジョブタイトルとメールアドレスを記載する。メールアドレスは任意だが、記載しておくとラン後にメールが届く。Cut-off lengthは、すべての配列を使用する場合は"1"を入力。テストデータはコード領域のアミノ酸配列のためPeptideを選択。
他のフィールドについては上のリンク先にあるチュートリアルを参照。
出力
ランが終わるとメールが届く。
BUSCOのスコア、配列長などがまとめられる。
出力内容についてはFAQ も参照。
パイチャート右のリンクからオロソログの詳細を確認できる。完全長検出されたオロソログ、partialにしか検出されなかったオルソログ、そして検出されなかったオルソログに分けられているので分かりやすい。
Misssingのオルソログを1つ見てみる。chorNOG00418のリンクをクリック。
eggNOG(オロソログデータベース。系統樹の様々な位置に存在するオルソログがどのような関係にああるか調べることができる)
aLeaves (目的の配列のホモログを検索 => ツリーを構築)
aLeavesの使い方は統合TVを確認して下さい。丁寧に解説されています。
gVolanteの結果はLINK TO RAW RESULTS〜からダウンロードできます。注意点ですが、ランタイムはデータのサイズ、ツールやデータベースの選択、サーバーの混雑度によって変化します。何度も同じジョブを投げないようにして下さい。
引用
gVolante for standardizing completeness assessment of genome and transcriptome assemblies.
Nishimura O, Hara Y, Kuraku S
Bioinformatics. 2017 Nov 15;33(22):3635-3637
aLeaves facilitates on-demand exploration of metazoan gene family trees on MAFFT sequence alignment server with enhanced interactivity
Kuraku S1, Zmasek CM, Nishimura O, Katoh K
Nucleic Acids Res. 2013 Jul;41(Web Server issue):W22-8
eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses
Jaime Huerta-Cepas, Damian Szklarczyk, Davide Heller, Ana Hernández-Plaza, Sofia K Forslund, Helen Cook, Daniel R Mende, Ivica Letunic, Thomas Rattei, Lars J Jensen, Christian von Mering, Peer Bork
Nucleic Acids Res. 2019 Jan 8; 47
参考
関連