macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

アセンブリ結果を評価するwebサービス gVolante

2021 5/12 ツイート追記

 

 全ゲノムやトランスクリプトームなどの包括的な配列情報へのアクセスが増加するとともに、それらの品質を評価する必要性が高まっている。N50などのシーケンス長に基づくメトリックが標準になったが、これはアセンブリ品質の1つの側面のみを評価する。逆に、事前に選択されたリファレンスタンパク質をコードする遺伝子のカバレッジを分析すると、重要なコンテンツベースの品質評価が提供されるが、この目的で現在利用可能なパイプラインであるCEGMAおよびBUSCOには、ユーザーにとって使いやすいインターフェイスを持たない。ここでは、(i)以前に開発されたパイプラインCEGMAおよびBUSCOによるシーケンスセットのオンデマンドの完全性評価、および(ii)事前計算された完全性スコアの閲覧のためのオンラインツールを提供する、新しいWebサーバーgVolanteを紹介する。参照遺伝子のカバレッジだけでなく、配列の長さ(N50長さなど)にもとづいてgVolanteレポートのスコアで実行される完全性評価により、複数の側面での品質管理が可能になる。 gVolanteを使用すると、元のアセンブリの品質を複数のバージョン間(プログラムの選択やパラメーターの調整などで取得)で比較し、データベースセクションにあるパブリックリソースのスコアと比較して評価できる。gVoalteはhttps://gvolante.riken.jp/で無料で利用できる。

 

 

 

HP

https://gvolante.riken.jp

Tutorial

 

webサービス

https://gvolante.riken.jp/analysis.html にアクセスする。

f:id:kazumaxneo:20200229225206p:plain

 

1、multi-fastaファイルを指定する。各種圧縮形式にも対応している (.gz, .tgz, .bz2, .tbz, .tar or .zip). 

f:id:kazumaxneo:20200229224950p:plainUPLOADをクリック。

 

2、ジョブタイトルとメールアドレスを記載する。メールアドレスは任意だが、記載しておくとラン後にメールが届く。Cut-off lengthは、すべての配列を使用する場合は"1"を入力。テストデータはコード領域のアミノ酸配列のためPeptideを選択。

f:id:kazumaxneo:20200229225705p:plain

他のフィールドについては上のリンク先にあるチュートリアルを参照。

 

出力

ランが終わるとメールが届く。

BUSCOのスコア、配列長などがまとめられる。

f:id:kazumaxneo:20200301104844p:plain

出力内容についてはFAQ も参照。

 

パイチャート右のリンクからオロソログの詳細を確認できる。完全長検出されたオロソログ、partialにしか検出されなかったオルソログ、そして検出されなかったオルソログに分けられているので分かりやすい。

f:id:kazumaxneo:20200301104847p:plain

 

Misssingのオルソログを1つ見てみる。chorNOG00418のリンクをクリック。

f:id:kazumaxneo:20200301110436p:plain



eggNOG(オロソログデータベース。系統樹の様々な位置に存在するオルソログがどのような関係にああるか調べることができる)

f:id:kazumaxneo:20200301110841p:plain

 

aLeaves (目的の配列のホモログを検索 => ツリーを構築)

f:id:kazumaxneo:20200301111401p:plain

f:id:kazumaxneo:20200301113041p:plain

aLeavesの使い方は統合TVを確認して下さい。丁寧に解説されています。

 

 

gVolanteの結果はLINK TO RAW RESULTS〜からダウンロードできます。注意点ですが、ランタイムはデータのサイズ、ツールやデータベースの選択、サーバーの混雑度によって変化します。何度も同じジョブを投げないようにして下さい。

引用
gVolante for standardizing completeness assessment of genome and transcriptome assemblies.

Nishimura O, Hara Y, Kuraku S

Bioinformatics. 2017 Nov 15;33(22):3635-3637

 
aLeaves facilitates on-demand exploration of metazoan gene family trees on MAFFT sequence alignment server with enhanced interactivity

Kuraku S1, Zmasek CM, Nishimura O, Katoh K

Nucleic Acids Res. 2013 Jul;41(Web Server issue):W22-8

 

eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses
Jaime Huerta-Cepas, Damian Szklarczyk, Davide Heller, Ana Hernández-Plaza, Sofia K Forslund, Helen Cook, Daniel R Mende, Ivica Letunic, Thomas Rattei, Lars J Jensen, Christian von Mering, Peer Bork

Nucleic Acids Res. 2019 Jan 8; 47

 

参考

 

関連