macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

フィルタリングされた、包括的なヒト腸内prokaryotesゲノムコレクション HumGut

 

 ヒト腸内細菌叢研究の大きな課題は、検証可能な完全なヒト腸内ゲノムコレクションが一般に公開されていないことである。本著者らは、健康なヒト腸の原核生物ゲノムの包括的なコレクションであるHumgutを作成し、世界的なヒト腸内細菌叢研究の参考とすることを目的とした。2,300以上の健康なヒト腸内メタゲノムをスクリーニングし、486,000以上の公開されている原核生物ゲノムが含まれていることを確認した。そして、含まれているゲノムを、配列の同一性に基づいてスコアリング、ランク付け、クラスター化し、クラスターごとに代表的なゲノムだけを残すことで、HumGutを作成した。メタゲノムリードの分類に優れた性能を発揮し、平均して97%のリードを分類したことが、HumGutのベンチマーク的な利点である。HumGutを使って健康な腸のサンプルを再分析したところ、90%以上が129種の細菌のコアセットを含んでおり、健康な人の腸には平均して約1,000種の細菌が存在することが明らかになった。HumGutコレクションは、公開されているゲノムやメタゲノムのリストが増えれば、継続的に更新される。本アプローチは、他の種に加えて、病気に関連するゲノムやメタゲノムにも拡張することができる。包括的でありながらスリムなHumGutデータベースは、分析を効率化すると同時に、手法の標準化と有効性が切実に求められている分野での分類学上の割り当てを大幅に改善する。

 
 ヒト腸管から収集された微生物の遺伝子情報の包括的なデータセットは大きすぎて、ほとんどの研究室ではアクセスできない。Sequence Read Archive(SRA)データベースに寄託されたヒト腸管メタゲノムBioProjectの数は、ここ数年で非常に増えている。2020年現在、NCBIは世界中で行われた1,400件以上の個別プロジェクトのデータを保有しており、約23万サンプル、150T塩基以上の配列で構成されている。さらに、GenBankに登録されている原核生物ゲノムの数は55万を超え、2019年だけで3倍以上の増加を示している。そのため、腸内細菌叢のデータを世界規模で体系化することが明確に求められている。地域的には、腸内細菌叢の研究により、腸内細菌叢がさまざまな疾患や障害と関連していることが示されており、腸内細菌叢の治療的介入が導入される段階になっている。しかし、健康な人の腸内細菌叢に関する世界的な基準がないことがボトルネックとなっている。このことは、世界規模での腸内細菌叢の理解と、大規模な介入戦略の導入の両方を制限している。

 著者らは、健康なヒトに関連する腸内細菌の単一かつ包括的なゲノムコレクションであるHumGutを作成し、世界中のすべてのヒト腸内細菌叢研究のリファレンスコレクションとすることを目指した。HumGut戦略の概要を論文図1に示す。HumGutをリファレンスデータベースとして使用することで、kraken2によるヒト腸内メタゲノムのリードアサインが大幅に改善されることを示す。

 

インストール
Github

 

データベースのダウンロード

FASTAファイル。2021年6月現在は30,691 genomes含む。

#FASTA (19GB)
wget http://arken.nmbu.no/~larssn/humgut/HumGut.tar.gz

#Metadata tables(TSVファイル、15MB)
wget http://arken.nmbu.no/~larssn/humgut/HumGut.tsv

#HumGutクラスターを得るために使用した381,779ゲノムに関するメタデータ(genomeは提供されていない)
wget http://arken.nmbu.no/~larssn/humgut/All_genomes.tsv

HumGut.tar.gzには各ゲノムごとに圧縮されたFASTAファイルが格納されている。全てのファイルのHeader-lineには、kraken2やkrakenUniqのデータベースを構築するための適切なテキストが記載されている(詳細はGithub参照)。

 

メタデータも見てみる。

Metadata tables

f:id:kazumaxneo:20210613132952p:plain

メタデータは、各ゲノムのユニークなHumGut識別子、97.5%と95%の配列同一性のクラスター名、 GTDB-tkと対応するためのID、GTDB-tkから与えられたゲノム名とfull taxonomy、NCBI TaxID、NCBI Taxonomyデータベースに登録されているゲノム名、NCBI分類学データベースにおける分類階級、completeness、contamination、GC含量、ゲノムサイズ、3,534人の健康なヒト腸内メタゲノムでの平均配列同一性、95%以上の閾値でゲノムの存在が確認されたメタゲノム数、ゲノムのタイプ(contig, scaffolds, Isolate, Complete、もしくはMAGなど)ftpダウンロードリンク、その他。

 

 

Githubでは、このHumGutゲノムからkraken2データベースを構築して利用するための手順が説明されています。アクセスして確認して下さい。

 

引用

HumGut: A comprehensive Human Gut prokaryotic genomes collection filtered by metagenome data

Pranvera Hiseni, Knut Rudi, Robert C. Wilson, Finn Terje Hegge, Lars Snipen

bioRxiv, Posted March 25, 2020