マイクロバイオーム解析リソース MGnify - macでインフォマティクス

マイクロバイオームの研究には、通常、特定の環境（biomeとして知られている）からの微生物の集合的な遺伝物質の研究が含まれる。この多様で拡大している研究分野（バイオーム、方法、科学的質問の幅の観点から）は、世界の海洋の深海水と堆積物（1〜3）から氷と土壌、世界で最も高い山（4,5）、およびその間（さらには（6）を超える）考えられるほぼすべてのバイオームなど、幅広い環境に適用されている。この成長は、European Nucleotide Archive（ENA）内にあるデータセットの数にも反映されている。執筆時点で、190万を超える未加工のマイクロバイオームデータセットが公開されており、そのうち31.5％が昨年リリースされた。

分野が成熟するにつれて、微生物群集の構成、微生物によって実行されるプロセス、および微生物の周囲との相互関係に関する独自の洞察を提供することにより、微生物叢分析は微生物学の理解をますます再定義している。例えば、最近の微生物叢の研究は、活性汚泥の性能に強く関連している廃水処理施設の世界的なコア細菌群集を特定している。帝王切開によって出産した子供の腸内微生物叢の違いを、膣の出生と比較して強調している（9）。そして、経口投与された薬物を代謝し、医学療法に潜在的な影響を与える多くの微生物遺伝子産物を発見した（10）。一方、人間の腸（これまでで最も広範囲に研究されたバイオームの1つ）に焦点を合わせた研究努力は、最近、新しい潜在的機能を備えた前例のない数の新規細菌種を明らかにした（11-13）。

MGnify（以前はEBIメタゲノミクス（14）として知られていた）は、マイクロバイオームデータの分析、調査、アーカイブのための無料のハブである。このリソースは、ユーザーが送信したデータを受け入れ、マイクロバイオームデータセットの分類および（必要に応じて）機能分析を提供する標準化されたパイプラインを提供する。対象となるデータタイプには、スモールサブユニット（SSU）リボソーム遺伝子（アンプリコン研究）、全ゲノムショットガンシーケンス研究（メタノミクス）、トランスクリプトームショットガンシーケンス研究（メタトランスクリプトミクス）などの分類マーカーを対象とする研究がある。より最近では、リソースは、ユーザーが提出したアセンブルされたシーケンスデータの分析（アセンブリ）を提供し始め、および/または分析前にユーザーが提出したメタゲノムデータのアセンブリを提供できる（リクエストに応じて利用可能）。

ENAとのパートナーシップにより、分析のために送信されたシーケンスデータとメタデータは、国際ヌクレオチドシーケンスデータベースコラボレーション（INSDC）の下で動作するアーカイブ内に永続的に保存され、保存される（15）。これにより、公開前の状態（通常2年間）で保持されるデータの効率的な保存が保証され、生のシーケンスデータの永続的な記録が提供される。一方、これらのデータセットの分析（プレリリース版と公開版の両方）はMGnify内にあり、独立したWebサイトとAPIを使用してデータの発見と調査を行う。 MGnifyでは、INSAからENA経由で取得した公的に利用可能なマイクロバイオームデータセットを処理することにより、ユーザーが送信したデータの分析を補完する。さらに、MGnifyユーザーは、INSDC内で見つかった関連する公開研究を最新のMGnifyパイプラインバージョンで分析し、結果をリソースに追加することを要求できる。この方法で標準化されたパイプラインを使用して大規模なデータ分析を有効にすると、研究を相互に関連させて配置でき、データの再利用が増加し、データセットから抽出できる知識が最大化される。

ここでは、最後の更新（14）以降のMGnify内の多くの主要な開発を報告する。これには、リソースの大幅な成長や、利用可能な注釈を拡張する新しい分析コンポーネントの開発が含まれ、マイクロバイオームの組成と機能に関するより深い洞察を促進する。

MGnifyは、メタゲノム、メタトランスクリプトーム、アンプリコン、アセンブリデータの解析・探索を行うための自由な利用が可能なハブである。このリソースでは、ユーザーが投稿した配列の豊富な機能的・分類的分析や、European Nucleotide Archive (ENA)から収集した一般に公開されているメタゲノムデータの分析を行うことができる。また、ウェブベースのデータ提出システム（Webin）を使って、自分のデータをアップロードして解析することができる。これにより、ジャーナルに掲載される際に頻繁に必要とされるシーケンスデータがENAにアーカイブされる。ユーザーは公開前にデータの機密保持を要求することができる。

Blog

https://ebi-metagenomics.github.io/blog/

2022/05/12

A new version of the proteinDB has been released on @MGnifyDB. More than double in size, it now has over 2.4 billion non-redundant sequences comprising 623 million clusters. Internal improvements mean that the DB now includes crucial links between the sequences and their metadata pic.twitter.com/I6UCdTaOzD
— MGnify (@MGnifyDB) May 11, 2022

実行方法

http://www.ebi.ac.uk/metagenomicsにアクセスする。

Searchタブでは公開されている様々な環境サンプルを検索できる。

熱泉を選択。

f:id:kazumaxneo:20210717233726p:plain

特定の生物種を含む解析結果や、特定の機能を持つタンパク質をコードする解析結果（GO termのInterProアノテーションの形で）を検索することもできる。

１つ展開した。

f:id:kazumaxneo:20210718000109p:plain

fastqもダウンロードできる。

Searchタブではデータタイプと環境を選んでメタゲノムのタンパク質配列を検索できる。

f:id:kazumaxneo:20210718001031p:plain

(画像は旧バージョン)

GenomeタブではUHGG（Unified Human Gastrointestinal Genome）カタログに掲載されている4,644種の原核生物ゲノムに簡単にアクセスし、可視化することができる。

f:id:kazumaxneo:20210718001907p:plain

f:id:kazumaxneo:20210718001926p:plain

Submit dataタブではメタゲノミクスの生のシークエンスデータと関連するメタデータをEuropean Nucleotide Archive (ENA)に投稿できる。

f:id:kazumaxneo:20210718002252p:plain

(画像は旧バージョン)

MGnifyに登録されたENAのサブスターアカウントが必要。

引用
MGnify: the microbiome analysis resource in 2020
Mitchell AL, Almeida A, Beracochea M, Boland M, Burgin J, Cochrane G, Crusoe MR, Kale V, Potter SC, Richardson LJ, Sakharova E, Scheremetjew M, Korobeynikov A, Shlemov A, Kunyavskaya O, Lapidus A4, Finn RD

Nucleic Acids Res. 2019 Nov 7