macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

NGSデータまたはアセンブリからバクテリアやアーキアのtaxanomic assignmentを行い、ゲノムのnoveltyなどを評価する MIGA

 

 Small subunit ribosomal RNA gene (16S)は、30年以上にわたり、原核生物種およびそのコミュニティの多様性をカタログ化および研究するために首尾よく使用されてきた。しかしながら、16S(論文より ref.1)によって効率的に評価することができない種およびより小さなレベルでの微生物群集をより良く解明し、全ゲノムの多様性および流動性をカタログするために、ゲノムベースの方法が必要である。そのようなゲノム方法の1つは、Average Nucleotide IdentityまたはANI(2,3)である。 ANIは、任意の2つのゲノム間で共有される全てのオーソロガス遺伝子の平均ヌクレオチド同一性を表し、同一またはclosely relatedな種の株間での強い分解能を提供する(すなわち、80-100%のANIを示す)。オルソログ遺伝子はゲノム間で大きく異なる可能性があるので、ANI測定はコアゲノムの進化的関連性を厳密に表すものではない。それにもかかわらず、それは細菌遺伝子プールの流動的性質を考慮し、したがって共有されたfinctionを考慮するので、遺伝的に外接する種(ref.2,3)の従来のDNA-DNAハイブリダイゼーション(DDH)の微生物学的概念を密接に反映する。したがって、ANIは、DDHを、関連性の標準尺度として置き換える可能性について国際的に認められている。これは、見積もりが簡単でポータブルで再現性のあるデータを表すためである(ref.4,5)。

 微生物ゲノムアトラス(MiGA)プロジェクトは、ANIに基づいてクエリーゲノムまたはアセンブリされたコンティグ配列の頑強な分類学的分類を提供する。より多様な(deep-branching)配列については、リファレンスゲノムデータベースに対して平均アミノ酸アイデンティティAAIも利用できる(6)。リファレンスデータベースはNCBI’s RefSeqであり、それには1865種(2018年5月現在、隔月更新)から1927の高品質クローズドゲノム、またはNCBIゲノムデータベースの原核生物セクション(以後NCBI_Prokと呼ぶ)の3921種からの11 487ゲノムが含まれる(毎月更新)。 MiGAは、ANI / AAI値に基づいてクエリー配列の最良一致のリファレンスゲノムを同定し、続いて、そのクエリー配列がその最良の一致として同じ分類学的ランク(例えば、種、属など)に割り当てられるべきか、それはそのランクの新しいnovelな分類になるかどうかを評価する。ベストマッチの配列(およびすべてのリファレンスゲノム)については、配列統計、ゲノム品質およびタイプ材料(利用可能な場合)を含む追加情報が提供される。アサイメントステップでは、MiGAは、クエリー配列とその最良一致との間のAAI値を、RefSeqゲノム間の(事前計算された)AAI比較から導かれた各分類学的ランクに対するAAI値の経験的分布と比較し(論文図1)、同じランクを共有していないのかか、またはnovelではないのかの確率を推定する(empirical P-values of taxonomic classification、taxonomic novelty; 詳細については論文の補足を参照)。例えば、同じ種のゲノムは、典型的には95%以上のANIを共有する(補足 図S2)。したがって、ベストマッチのANI値が95%以下のクエリーゲノムはnovel speciesを最もよく表しており、この場合(新種として)の信頼度(確率)は、そのベストマッチのANI値がRefSeqで同じ種に割り当てられたすべてのゲノムのANI値(図3)とどのくらい離れているかによって変わる。MiGAは、同様に、クエリーゲノムの新規性のレベルを決定することができる。すなわち、それが既知の属の中のnovel speciesなのか 、または既知のfamilyの新規な属なのか、などなど。著者らはMiGAの分類精度を、NCBI_Prokの既知分類のゲノムを用いて検証し、それらをRefSeqデータベースに対して分類した。 MiGAの精度は、アサインのP値が0.05-0.01(補足図S1)であるときに90%以上であった。偽陽性または偽陰性のの頻度は低く、ほとんど種の名前が一致しないものものだった。例えば95%よりはるかに低いANI値を有するゲノム対を含む種間(以下も参照のこと)(*1)。

 さらに、クエリーゲノム配列は、単離されたが分類されていないゲノムや、metagenome-assembled genomes(MAG)およびsingle-cell amplified genome(SAG)コレクションに対して検索し、利用可能な全ゲノム配列空間における最も近いrelativesを同定することができる。完全性、汚染、および分類学的にバイアスされた領域(下記参照)の推定を含む一般的な統計および品質評価は、照会シーケンスおよびすべてのリファレンスMAGおよびSAGの両方に提供されるので、ユーザーはベストマッチを自分で評価できる。この場合、一致するリファレンスゲノムは公式には分類されていないので、通常、種または他の低い分類学レベルへの直接的な分類は不可能であるが、唯一利用可能なのは、MiGAの参照のMAGとSAGNCBI_Prokに対するベストマッチ(事前計算された)に基づき分類することである。しかし、この分析は、「クエリーゲノムは他の場所でも見つかるか?」、「遺伝子内容がベストマッチとどれほど類似しているか」などの生態学的な疑問に対する答えを提供でき、将来の新しいタクソン記述を容易にするものである。この場合、リファレンスゲノムはいわゆるプロジェクトで編成され、MiGA内のRefSeqおよびNCBI_Prokからの別個のリファレンスゲノムデータベースである。例えば、ゲノムは、それらが由来する生息地に基づいてプロジェクトに分類される(以下も参照のこと)。著者らは現在、最近公開されたMAGのコレクションを用いてこのコレクションを拡張しており、キーメタデータを取得して作成するために、INSDC(ref.7)のメンバーデータベースに登録されたシーケンスデータとDigital Protologueデータベースに登録されたメタデータをMAGの外部ユーザーから提出することを歓迎している(ref.8)。したがって、MiGAは、外部のユーザーがMiGAを通じてゲノム配列を(自由に)共有しようとする場合、特に、未熟な微生物の大多数の目録作成を支援することができる(ref.9)。

 

f:id:kazumaxneo:20181006132155p:plain

MiGA Workflow。NGSデータ、またはアセンブリした配列のアップロードからジョブは始まる。NCBIのデータベースなどを使い、phylogenic  marker genesの検出、taxonomic  classification、近縁な種とのANI / AAi計算、系統解析などが実行される。ユーザーは全ての処理をweb上で簡単に実行できる。MiGAはオンラインとローカル端末、両方で利用できる。図はマニュアルより。

 

  • MiGAマニュアル

https://manual.microbial-genomes.org/part5/workflow#essential-genes

  • How can MiGA help me?

https://manual.microbial-genomes.org/part1/pitch

  • MiGA Tutorial 2 - Choosing the Right Analysis


 

使用方法

主な使い方は動画を参照して下さい。動画は4つあります。合計15分程度です。

 

MiGAにアクセスする。

http://enve-omics.ce.gatech.edu:3000

f:id:kazumaxneo:20181007110952j:plain

Soil enviroment(左下)とmarine enviroment(右下)に絞った検索も可能になっている。

 

NCBIProkとRefSeqのupload genomeボタンからは、アセンブリした配列やraw NGSデータをアップロードして、taxonomic assignmentを実行することができる。RefSeqは、リファレンスデータベースがRefSeqのハイクオリティな genomeになっている。NCBI procはNCBI procaryotesセクションの1万以上のゲノムが含まれる(詳細はマニュアル参照)。クエリ配列は、アセンブリしたcontig配列の他、NGSデータでも受け付ける。リードをアップロードした場合、まず IDBA-UDを使ってアセンブリしてから評価される。また、メタゲノムのシーケンスデータの場合は、NGSデータから解析できないので、アセンブリを先に行って、さらにビニングによってin silicoで配列を分離してからアップロードする。

f:id:kazumaxneo:20181006132001p:plain

各々の分析が順番に行なわれ、終わったものから画面にリンクが表示される。最初にessentila genes、予測されたコード領域のアミノ酸配列、rRNAなどのジョブが終わる。各項目のLearn moreをクリックすると、マニュアルの該当するセクションにジャンプする。

essential genesの結果。completenessとqualityが表示される。

f:id:kazumaxneo:20181006140424p:plain

 

しばらくすると、ANI/AAiのデータベースからのベストマッチ、データベースのゲノムとの距離が調べられ、Taxonomic noveltyの判定結果も表示される。

f:id:kazumaxneo:20181007165014p:plain

report

f:id:kazumaxneo:20181007165422p:plain

 

最後にBIONJ (improved neighbor-joining)のPDF系統樹ファイルが出力される。

 

MY taxa scan report

E coliのアセンブリ

f:id:kazumaxneo:20181007110234j:plain

 水色がe.coliで、ほとんどの領域が水色になっている。

f:id:kazumaxneo:20181007110355j:plain

 

Mockメタゲノム(10ゲノム)

f:id:kazumaxneo:20181007110451j:plain

様々なゲノムがヒットするが、ゲノムの量比で言えば、右端に示されているように、Streptomyces(水色)が最も多い。
 

ランの最後に、p value付きでnovelなゲノムなのかどうか判定される。下はe.coliのアセンブリ配列を使った時の結果。

f:id:kazumaxneo:20181007110851j:plain

 

全結果が出るまで1日くらいはかかるようです。何度も同じジョブを投げないようご注意下さい。

引用

The Microbial Genomes Atlas (MiGA) webserver: taxonomic and gene diversity analysis of Archaea and Bacteria at the whole genome level

Luis M Rodriguez-R, Santosh Gunturu, William T Harvey, Ramon Rosselló-Mora, James M Tiedje, James R Cole, Konstantinos T Konstantinidis

Nucleic Acids Res. 2018 Jul 2; 46(Web Server issue): W282–W288.

 

関連ツール

 

*1

すなわち、種名がゲノムの類似度とマッチしていないのかもしれない。