macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バクテリアとアーキアのデータベース EzBioCloud

2019 7/5 関連ツール追記について追記

 

 現代のバクテリア古細菌分類学の目標の1つは種の客観的定義である。分類を決定するプロセスは、新しいテクノロジーの出現により、時とともに継続的に改善されてきた。 PCRとそれに続く16S rRNA遺伝子のシークエンシングは、バクテリア古細菌の系統学に関する我々の理解に革命をもたらした。ほとんどすべての既知の種を網羅する包括的な16S rRNA遺伝子データベースの導入[論文より、ref.1]〜[ref.4]により、新規の種の発見率が大幅に向上した。しかし、16S rRNA遺伝子のバイオインフォマティックな比較が特定の株を同定する客観的で信頼できる方法を提供するとしても、種レベルでの使用では重大な制限がある。ほとんど同一の16S rRNA遺伝子配列であっても、2つの株が同じ種に属することを保証するわけではない[ref.5、6]。この問題を克服するために、DNA-DNAハイブリダイゼーションと呼ばれる実験的アプローチが、16S rRNA遺伝子に基づく分類を補完するために使用されきた[ref.7]。ごく最近では、エラーが発生しやすく面倒なDNA-DNAハイブリダイゼーションを置き換えるためにゲノムデータの使用が推奨されていた。種の境界を定義するために、いくつかの総合的なゲノム関連性指標(OGRIs)が提案された[ref.8]。例えば、平均ヌクレオチド同一性(ANI)[ref.9]とOrthoANI [ref.10]は、種の境界が95〜96%であることを示唆していた。

 ゲノム配列は、suprageneric phylogenyの評価、種の認識[ref.8]、および一塩基多型の少ない臨床クローンの識別[ref.11]に使用できるため、バクテリア分類学だけでなく他の微生物学分野についても大幅に改善されることは明らかである。 16S rRNA遺伝子のように、すべてのタイプの株の品質管理されたゲノムデータベースの構築は、ゲノミクスに基づく分類法をより広く応用するための前提条件である[ref.12]。

 NCBIアセンブリデータベース(www.ncbi.nlm.nih.gov / assembly)などの主要な公的データベースでは、現在、およそ70,000のゲノム配列が利用可能である(論文執筆時点)。これらのゲノムは、基本的な応用微生物学のためのリソースとして大きな可能性を秘めているが、分類名のようなメタデータはかなりのキュレーションを必要とする。ここでは、16S rRNA遺伝子とゲノム配列によって表される細菌と古細菌の完全な分類学的階層を持つ統合データベースを紹介する。すべてのゲノムは、遺伝子ベースの検索とOrthoANI [ref.10]の計算の組み合わせを使用して、属、種または亜種のレベルで分類学的に同定された。 62,000以上のクオリティフィルタリングされたゲノムの統合により、DNAのG + C含有量、ゲノムサイズ、および各分類群のその他の重要なゲノム機能に関する包括的なレポートを作成することができる。データベースと関連検索ツールはwww.ezbiocloud.net/で入手できる。

 

 EzBioCloudに関するツイート


Tutorials

Tutorials | EzBioCloud Help center

f:id:kazumaxneo:20190110221856p:plain

 

User guide

https://help.ezbiocloud.net/user-guide/

f:id:kazumaxneo:20190110224057p:plain


 

使い方

ここでは16SメタアンプリコンシーケンスAppsを使う流れについて簡単に説明する。

EzBioCloud Appsにアクセスする。

f:id:kazumaxneo:20190129215305p:plain

16S-based MTPをクリックする。ログインする。

 

ローカルからfastq/fastaをアップロードする。

Uploadをクリック

f:id:kazumaxneo:20190110222154p:plain

 

パラメータ設定ウィンドウにジャンプする。

デフォルトターゲットはbacteriaとなっている。古細菌にも変更できる。

https://www.ezbiocloud.net/mtp/view_myMTPList

f:id:kazumaxneo:20190110222046p:plainシーケンスタイプはデフォルトではペアエンド。右のselect fastq/fastaからファイルをアップロードする(.gzにも対応。上限は1GB)。

 

ペアエンドのfastqの場合、アップロード後に出現したアイコンをクリック、ペアエンドとして認識させる。

f:id:kazumaxneo:20190110222506p:plain

Yesを選択。

 

f:id:kazumaxneo:20190110215027p:plain

 

一番下のrequest the pipelineボタンを押すとジョブが始まる。

f:id:kazumaxneo:20190110215031p:plainジョブの進捗は右のタブから確認できる。 

f:id:kazumaxneo:20190110215034p:plain

Run status付近をクリックすれば非表示になる。

 

 

f:id:kazumaxneo:20190110223148p:plain

 

Alpha diversity

f:id:kazumaxneo:20190110223158p:plain

f:id:kazumaxneo:20190110223152p:plain

Taxonomic hierarchy

f:id:kazumaxneo:20190110223437p:plain

 

Taxonomic composition

f:id:kazumaxneo:20190110223503p:plain

f:id:kazumaxneo:20190110223510p:plain

f:id:kazumaxneo:20190110223517p:plain

f:id:kazumaxneo:20190110223523p:plain

f:id:kazumaxneo:20190110223542p:plain

f:id:kazumaxneo:20190110223653p:plain


Selected taxa

f:id:kazumaxneo:20190110223758p:plain

 

Krona

f:id:kazumaxneo:20190110223820p:plain


Word Cloud

f:id:kazumaxneo:20190110223848p:plain

f:id:kazumaxneo:20190110223855p:plain



MTP 2.0 BETA

f:id:kazumaxneo:20190110223930p:plain

クリックすればさらに中に入れる。

f:id:kazumaxneo:20190110223933p:plain

 

たくさんの機能があるデータベースです。チュートリアルも充実しています。アクセスしてみて下さい。

16S “Identify” Workflow with EzBioCloud.net

[EzEditor2] 16S "Identify" Workflow with EzBioCloud.net | EzBioCloud Help center

How to use EzBioCloud 16S database with QIIME

https://help.ezbiocloud.net/how-to-use-ezbiocloud-16s-database-qiime/

Comparative Genomics of Vibrio cholerae

[Tutorial] Comparative Genomics of Vibrio cholerae | EzBioCloud Help center

 

他のツール

https://www.ezbiocloud.net/tools

 

追記

Taxnomy検索

f:id:kazumaxneo:20190705214516p:plain

 

ANIcalculator

https://www.ezbiocloud.net/tools/ani

f:id:kazumaxneo:20190705214640p:plain

 

16S rRNAホモロジーサーチ(NCBI 16S rRNAより分かりやすい)。

https://www.ezbiocloud.net/identify

f:id:kazumaxneo:20190705215017p:plain

16Sの一部領域(可変領域等)で良いので、配列を貼り付けて検索する。

 

helpより

16S配列が正確で完全長であり、既知のすべての種の配列と98.7%以下で一致する場合、この16Sが種(=phylotype)を表していることはかなり確実である。INSDCのデータベースには2300万以上の16S配列が登録されていますが、これらの基準を満たすものは多くありません。16S配列のみで定義されているファイロタイプは、純粋培養やメタゲノムライブラリーのシーケンスから得られたものです。EzBioCloudのデータベースでは、これらのファイロタイプを代表する参照配列を選択する際には、細心の注意を払ってマニュアルアライメントとキュレーションを行っています。さらに、Pacific Biosciences社(PacBio)のロングリードCCSシーケンシングで生成された300万以上のリードから、2,000以上のファイロタイプが追加されました。例えば、PAC001304_s [See full taxonomy]は、Prevotella属に属するフィロタイプで、ディープシーケンスされたヒトの糞便サンプル[Explore this sample]の30%以上を占めています。実際に、このマイクロバイオームサンプルの上位10種のうち4種は、EzBioCloudのPacBioベースの参照配列で表されるフィロタイプです。自然に存在するすべての種に固有の名前や識別子を割り当てることで、マイクロバイオームの分類学的プロファイリング、特に大規模な比較を大幅に改善することができます。分類学データベースと多様性に関する最新の統計情報は、//www.ezbiocloud.net/dashboard でご確認ください。

 

引用
Introducing EzBioCloud: a taxonomically united database of 16S rRNA gene sequences and whole-genome assemblies

Yoon SH, Ha SM, Kwon S, Lim J, Kim Y, Seo H, Chun J

Int J Syst Evol Microbiol. 2017 May;67(5):1613-1617