2025/11/05 誤字修正
メタゲノムシーケンシングの急速な発展により、メタゲノムアセンブルゲノム(MAG)の前例のない膨大なデータが生成され、微生物の発見および機能的特徴づけの機会が一変した。しかしながら、これらの資源を完全に活用することは、データ生成手法の不均一性および解析パイプラインの不整合によって制約されてきた。gcMetaデータベースは、公的取得およびde novoアセンブリの両方を通じてMAGを統合することにより、このギャップを解消するものである。本リリースでは、人間、動物、植物、海洋、淡水、極限環境など多様なバイオームにわたる104,266サンプルから2.7百万を超えるMAGを統合した。これにより、109,586の種レベルクラスターを含む50のバイオーム特異的MAGカタログを構築し、そのうち63%(69,248)はこれまで特徴づけられていなかった分類群であり、さらに7,490万を超える新規遺伝子を注釈した。機能的形質を微生物の共起ネットワークと関連付けることにより、gcMetaは生物地球化学的循環および環境適応の中心となるキーストーン分類群を特定する。さらにこのプラットフォームは、生態系間の機能的比較を支援し、ニッチ特異的な代謝経路およびストレス応答遺伝子を明らかにする。また、gcMetaは微生物酵素、抗ファージ防御システム、その他の機能モジュールを含む標準化されたAI対応データセットを提供し、高度な機械学習応用を可能にする。微生物の「配列発見」と「機能的利用」を橋渡しすることにより、gcMetaは生態学的研究、産業バイオテクノロジー、および新規遺伝子探索の基盤を確立する。プラットフォームはhttps://gcmeta.wdcm.orgで自由に利用可能である。
Help
https://gcmeta.wdcm.org/data/gcMetaGuidebook.pdf
https://gcmeta.wdcm.orgにアクセスする。
2025年11月現在の総MAG数は391万超、種レベル代表MAG数は109,586となっている。これらは合計9,653個のBioprojectに由来している。

論文によると、MAGカタログは、2024年8月までにNCBI SRAから公的に利用可能なメタゲノムデータセットを収集してアセンブリされている(収集条件は、library_source = METAGENOMIC かつ library_strategy = WGS、または library_source = METAGENOMIC かつ library_strategy = OTHER であり、かつ塩基数(Bases)が1億を超えるもの)。BBDukを用いてアダプター除去および品質トリミングを実施し、宿主由来サンプルについては、動物および植物の参照ゲノムに加えて、人間のGRCh38.p13およびPhiX DNAをBowtie2によりフィルタリングした上でSPAdes(--meta -m 900)とMEGAHIT(k-list 21, 29, 39, 59, 79, 99, 119, 141)でアセンブリされ、MetaWRAP(MaxBin2、CONCOCT、およびMetaBAT2)(紹介)でビニングされ、その後bin_refinementモジュール(-c 50 -x 10)により重複除去され、完全性50%以上かつ汚染率10%以下のMAGが保持されている。論文記載では541,019 MAGとなっているが、現在ではその7倍以上のMAGが登録されている。
メニュー下では、Biome specific MAGカタログが利用できる。例えば"Arabidopsis Rhizosphere"だと日本からのプロジェクトが多く統合されている。

外環境のMAGも多く用意されているが、家畜のGut/Oral環境がより充実している印象。
右端のMoreボタンから各biomeの詳細を確認できる。

Functional keystone taxa
画像左下のFunctional keystone taxaをクリックする。

ここではスピアマン相関に基づく種共起ネットワーク解析の結果を閲覧できる。

各カタログの特性に基づき、ゲノム機能特徴と微生物共存ネットワークを統合することで、各カタログの機能的基幹分類群を特定する(HPより)。
Biome(生息環境)を選択、

最後に機能を選択

そうすると、選択したbiomeでの種共起ネットワークが表示される。ノードの色は、選択した機能的カテゴリの充実度をそれぞれの分類群ごとに表している。こうすることで、key taxaにおいてどのような機能的カテゴリが充実しているのかをそれぞれのbiomeで調査することが可能になる

レベル5は完全な経路と高い代謝能力を示し、レベル1は最小限の機能性を示す(ネットワーク解析に対応していないbiomeや機能もある)。
その下には、選択した機能的カテゴリの遺伝子コピー数が分類群ごとにまとめられる。

それぞれの棒グラフが遺伝子、バーのは分類群を表す。
その下には実際の遺伝子リストがまとめられる。

Genes across different catalogues
画像下中央のGenes across different cataloguesをクリックする。

gcMetaでは各MAGカタログの非重複遺伝子セットが構築されており、ここではその結果を閲覧できる。また、これに基づく普遍的に保存されている遺伝子の機能比較解析を行うことができる。

オンラインでの検索、複数biomeの比較、機能性遺伝子をダウンロードもできる。
コア種の機能遺伝子の濃縮(サンプルの90%以上の種に現れる)。棒グラフをクリックすると遺伝子の内訳を確認できる表が表示される。

環境関連カタログにおけるコア種の閾値は70%となっている。
Searchタブに切り替えると、条件付き検索機能によって異なるカタログ間で重複のない遺伝子セットの統計的比較を実行できる。左端から、KEGG, ARG, COG, VFDBとなっている。

遺伝子名か機能的カテゴリから選択して検索する。検索前に対象のbiomeも指定しておく。

写真では機能的カテゴリのメニューを展開して遺伝子を選んでいる。
検索例:
KEGGのメニューから光合成関連遺伝子を選び、biome間、taxa間での分布を調べた。遺伝子が列、選択したbiomeが行となっている。ヒートマップの色は遺伝子の存在頻度を表現している。横軸のラベルの色は下の凡例に基づいている。

中国語でわかりにくいが、おそらく同時に選択可能な遺伝子数はmax 20
ヒートマップの下にはどの環境でどの分類群で豊富かの棒グラフが表示される。プロットがそれぞれパイチャートとなっていて、情報量が多いグラフとなっている。

グラフを見ると、一部の遺伝子は特定の分類群に濃縮されている傾向が出ている用に見える。グラフは動的に操作でき、ワンクリックで遺伝子リストの詳細を取得できるようになっている。検索は、KEGG, COG, ARG, VFDBの機能的カテゴリで行えるので、様々な研究に利用できると思われる。
AI-ready datasets
画像右下のAI-ready datasetsをクリックする。

このページでは、統一されたデータ品質管理と正規化を経た、多様でモデル互換性のあるAI対応データセットをオンラインで閲覧・ダウンロードできる。gcMetaチームは、リストの更新や変更を継続的に監視している(HPより)。

タンパク質言語モデルのESM、ProtTrans、protGPT2などがそれぞれの機能カテゴリや代謝カテゴリごとに公開されている。右端のリンクからダウンロードできるようになっている。

ダウンロードタブ
メニューのダウンロードタブからは、それぞれのBiome specific MAGカタログのfastaファイルとメタデータをダウンロードできる。

特に様々な動物と魚のGutサンプルが充実している。現在、50カテゴリ公開されている。
1つダウンロードして展開した。

metadata

コメント
とても使いやすい設計となっていますが、日本からアクセスしてみるとやや重たいことがあります。とくにMAGカタログやPLMを中国国内ではなく日本からダウンロードする場合、古い電話線くらいの速度しか出ない上に頻繁に切断されるので、ダウンロードを完了するのはかなり厳しいと感じました。より近い韓国でホストされているVPNを中継することで多少は早くダウンロードできましたが(*1)、それでも1Mbps程度しか速度は出ませんでした。海外でもアクセスしやすいように、例えばAWSクラウドに公開していただけるとより使いやすくなりアクセスが増える気がしますね (個人的な意見)。
引用
gcMeta 2025: a global repository of metagenome-assembled genomes enabling cross-ecosystem microbial discovery and function research
Yan Sun, Qi Chen, Guomei Fan, Qinglan Sun, Qing Zhou, Jiaqing Zhang, Jingyi Nie, Juncai Ma, Linhuan Wu Author Notes
Nucleic Acids Research, Published: 31 October 2025
gcMeta: a Global Catalogue of Metagenomics platform to support the archiving, standardization and analysis of microbiome data
Wenyu Shi, Heyuan Qi, Qinglan Sun, Guomei Fan, Shuangjiang Liu, Jun Wang, Baoli Zhu, Hongwei Liu, Fangqing Zhao, Xiaochen Wang, Xiaoxuan Hu, Wei Li, Jia Liu, Ye Tian, Linhuan Wu, Juncai Ma
Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D637–D648
関連
*1 家のネット回線からダウンロードしてみた(早いときは1,000 Mbps出る回線を使用)。しかしまったくダウンロードが進まなかったため、VPNで韓国の太い回線に切り替えてテストした。その結果、10GBのMAGカタログ1個だけなら何度か切断されつつも3時間程度でダウンロード完了した。しかしより大きなファイルのダウンロードは厳しいと感じた(筑波大学VPN Gateを使用: 参考動画。VPNは国によっては違法の可能性があるので自己責任でお願いします)。
なお、大学でもダウンロードを試しましたが、まったく速度が出ませんでした。大学では学術ネットワーク経由で例えばNCBIのデータなどは家より高速にダウンロードできたりするようですが("traceroute gcmeta.wdcm.org"でチェック可能)、日本から中国国内のサーバーだとやはり厳しいです。
