NGSデータまたはアセンブリからバクテリアやアーキアのtaxanomic assignmentを行い、ゲノムのnoveltyなどを評価する MIGA

　Small subunit ribosomal RNA gene （16S）は、30年以上にわたり、原核生物種およびそのコミュニティの多様性をカタログ化および研究するために首尾よく使用されてきた。しかしながら、16S（論文より　ref.1）によって効率的に評価することができない種およびより小さなレベルでの微生物群集をより良く解明し、全ゲノムの多様性および流動性をカタログするために、ゲノムベースの方法が必要である。そのようなゲノム方法の1つは、Average Nucleotide IdentityまたはANI（2,3）である。 ANIは、任意の2つのゲノム間で共有される全てのオーソロガス遺伝子の平均ヌクレオチド同一性を表し、同一またはclosely relatedな種の株間での強い分解能を提供する（すなわち、80-100％のANIを示す）。オルソログ遺伝子はゲノム間で大きく異なる可能性があるので、ANI測定はコアゲノムの進化的関連性を厳密に表すものではない。それにもかかわらず、それは細菌遺伝子プールの流動的性質を考慮し、したがって共有されたfinctionを考慮するので、遺伝的に外接する種（ref.2,3）の従来のDNA-DNAハイブリダイゼーション（DDH）の微生物学的概念を密接に反映する。したがって、ANIは、DDHを、関連性の標準尺度として置き換える可能性について国際的に認められている。これは、見積もりが簡単でポータブルで再現性のあるデータを表すためである（ref.4,5）。

　微生物ゲノムアトラス（MiGA）プロジェクトは、ANIに基づいてクエリーゲノムまたはアセンブリされたコンティグ配列の頑強な分類学的分類を提供する。より多様な（deep-branching）配列については、リファレンスゲノムデータベースに対して平均アミノ酸アイデンティティAAIも利用できる（6）。リファレンスデータベースはNCBI’s RefSeqであり、それには1865種（2018年5月現在、隔月更新）から1927の高品質クローズドゲノム、またはNCBIゲノムデータベースの原核生物セクション（以後NCBI_Prokと呼ぶ）の3921種からの11 487ゲノムが含まれる（毎月更新）。 MiGAは、ANI / AAI値に基づいてクエリー配列の最良一致のリファレンスゲノムを同定し、続いて、そのクエリー配列がその最良の一致として同じ分類学的ランク（例えば、種、属など）に割り当てられるべきか、それはそのランクの新しいnovelな分類になるかどうかを評価する。ベストマッチの配列（およびすべてのリファレンスゲノム）については、配列統計、ゲノム品質およびタイプ材料（利用可能な場合）を含む追加情報が提供される。アサインメントステップでは、MiGAは、クエリー配列とその最良一致との間のAAI値を、RefSeqゲノム間の（事前計算された）AAI比較から導かれた各分類学的ランクに対するAAI値の経験的分布と比較し（論文図1）、同じランクを共有していないのかか、またはnovelではないのかの確率を推定する（empirical P-values of taxonomic classification、taxonomic novelty; 詳細については論文の補足を参照）。例えば、同じ種のゲノムは、典型的には95％以上のANIを共有する（補足図S2）。したがって、ベストマッチのANI値が95％以下のクエリーゲノムはnovel speciesを最もよく表しており、この場合（新種として）の信頼度（確率）は、そのベストマッチのANI値がRefSeqで同じ種に割り当てられたすべてのゲノムのANI値（図3）とどのくらい離れているかによって変わる。MiGAは、同様に、クエリーゲノムの新規性のレベルを決定することができる。すなわち、それが既知の属の中のnovel speciesなのか、または既知のfamilyの新規な属なのか、などなど。著者らはMiGAの分類精度を、NCBI_Prokの既知分類のゲノムを用いて検証し、それらをRefSeqデータベースに対して分類した。 MiGAの精度は、アサインのP値が0.05-0.01（補足図S1）であるときに90％以上であった。偽陽性または偽陰性のの頻度は低く、ほとんど種の名前が一致しないものものだった。例えば95％よりはるかに低いANI値を有するゲノム対を含む種間（以下も参照のこと）（*1）。

　さらに、クエリーゲノム配列は、単離されたが分類されていないゲノムや、metagenome-assembled genomes（MAG）およびsingle-cell amplified genome（SAG）コレクションに対して検索し、利用可能な全ゲノム配列空間における最も近いrelativesを同定することができる。完全性、汚染、および分類学的にバイアスされた領域（下記参照）の推定を含む一般的な統計および品質評価は、照会シーケンスおよびすべてのリファレンスMAGおよびSAGの両方に提供されるので、ユーザーはベストマッチを自分で評価できる。この場合、一致するリファレンスゲノムは公式には分類されていないので、通常、種または他の低い分類学レベルへの直接的な分類は不可能であるが、唯一利用可能なのは、MiGAの参照のMAGとSAGのNCBI_Prokに対するベストマッチ（事前計算された）に基づき分類することである。しかし、この分析は、「クエリーゲノムは他の場所でも見つかるか？」、「遺伝子内容がベストマッチとどれほど類似しているか」などの生態学的な疑問に対する答えを提供でき、将来の新しいタクソン記述を容易にするものである。この場合、リファレンスゲノムはいわゆるプロジェクトで編成され、MiGA内のRefSeqおよびNCBI_Prokからの別個のリファレンスゲノムデータベースである。例えば、ゲノムは、それらが由来する生息地に基づいてプロジェクトに分類される（以下も参照のこと）。著者らは現在、最近公開されたMAGのコレクションを用いてこのコレクションを拡張しており、キーメタデータを取得して作成するために、INSDC（ref.7）のメンバーデータベースに登録されたシーケンスデータとDigital Protologueデータベースに登録されたメタデータをMAGの外部ユーザーから提出することを歓迎している（ref.8）。したがって、MiGAは、外部のユーザーがMiGAを通じてゲノム配列を（自由に）共有しようとする場合、特に、未熟な微生物の大多数の目録作成を支援することができる（ref.9）。

f:id:kazumaxneo:20181006132155p:plain

MiGA Workflow。NGSデータ、またはアセンブリした配列のアップロードからジョブは始まる。NCBIのデータベースなどを使い、phylogenic marker genesの検出、taxonomic classification、近縁な種とのANI / AAi計算、系統解析などが実行される。ユーザーは全ての処理をweb上で簡単に実行できる。MiGAはオンラインとローカル端末、両方で利用できる。図はマニュアルより。

MiGAマニュアル

https://manual.microbial-genomes.org/part5/workflow#essential-genes

How can MiGA help me?

https://manual.microbial-genomes.org/part1/pitch

MiGA Tutorial 2 - Choosing the Right Analysis

使用方法

主な使い方は動画を参照して下さい。動画は４つあります。合計15分程度です。

MiGAにアクセスする。

http://enve-omics.ce.gatech.edu:3000

Soil enviroment（左下）とmarine enviroment（右下）に絞った検索も可能になっている。

NCBIProkとRefSeqのupload genomeボタンからは、アセンブリした配列やraw NGSデータをアップロードして、taxonomic assignmentを実行することができる。RefSeqは、リファレンスデータベースがRefSeqのハイクオリティな genomeになっている。NCBI procはNCBI procaryotesセクションの1万以上のゲノムが含まれる（詳細はマニュアル参照）。クエリ配列は、アセンブリしたcontig配列の他、NGSデータでも受け付ける。リードをアップロードした場合、まず IDBA-UDを使ってアセンブリしてから評価される。また、メタゲノムのシーケンスデータの場合は、NGSデータから解析できないので、アセンブリを先に行って、さらにビニングによってin silicoで配列を分離してからアップロードする。

f:id:kazumaxneo:20181006132001p:plain