macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

キュレーションされ、統一したアノテーションが付けられたhuman gutメタゲノムのデータベースGMrepo

 

 GMrepo (data repository for Gut Microbiota)は、キュレートされ、一貫してアノテーションされたヒト腸管メタゲノムのデータベースである。GMrepoの主な目的は、急速に増加しているヒトのメタゲノムデータの再利用とアクセスを容易にすることである。これは、最先端のツールを用いて収集したサンプルの微生物内容を一貫してアノテーションし、対応するヒトホストのメタデータを手動でキュレーションすることで達成される。GMrepoは、収集したサンプルを関連する表現型に基づいて整理し、年齢、性別、国、ボディマス指数BMI)、最近の抗生物質の使用状況など、可能な限りの関連メタデータを含める。関連情報へのアクセスを容易にするため、GMrepoにはグラフィカルなクエリビルダーが搭載されており、ユーザーはカスタマイズされた複雑な生物学的関連性のあるクエリを作成することができる。例えば、(1)BMIが18.5~24.9の18~25歳の健康な人のサンプル、(2)大腸新生物に関連するプロジェクト(それぞれ100以上のサンプルを含み、患者と健康な対照群を含む)を検索する場合などである。事前に計算された種/属の相対存在比、表現型内および表現型間の有病率、ペアワイズの共起情報はすべてウェブサイトで公開されており、プログラム可能なインターフェイスでアクセスできる。現在、GMrepoには、92の表現型に関する253のプロジェクトから得られた58,903のヒト腸管サンプル/ラン(17,618のメタゲノムと41,285のアンプリコンを含む)が収録されている。GMrepoは、https://gmrepo.humangut.info で自由に利用できる。

 

help

https://gmrepo.humangut.info/help

 

HPより

データ処理および品質管理方法
ダウンロードしたデータの全体的な品質を評価するためにFastQC (ver 0.11.8)を使用し、続いてTrimmomaticを使用してベクター配列や低品質の塩基を除去した。元のリード長の2/3より短い配列は、その後の解析から除外した。

QC1 トリミング後、20,000リードのサンプル(ラン)は以降の解析から除外し、GMrepoで「Failure QC (QC status == 0)」とマークした。

16S配列については、シングルエンドのリードはそのまま後続の解析に使用し、double-ended readsはCasperを用いて最初にマージした。

シークエンスリード分類学上の位置づけ
MAPseqを用いて、得られたクリーンデータを解析し、リードに分類情報を付与した。属レベルでのカットオフ値が0.4未満のリードは、著者の推奨に従って削除した。その後、各サンプルについて、属と種のレベルで相対存在量を算出し、存在量の合計値をそれぞれ100%とした。

全ゲノム(メタゲノム)配列の場合は、MetaPhlAn2をデフォルトのパラメータで使用して、シーケンスリードの分類を行った。

QC2 taxonの割り当て後、単一の分類群のみを含むサンプル(1つの種または属が全存在量の99.99%以上を占める場合)は、「Failed QC (QC status == 0)」と表示される。

 

 

webサービス

https://gmrepo.humangut.info/homeにアクセスする。

f:id:kazumaxneo:20210519010651p:plain

 

Search

phenotypeや他の条件で登録されているデータを検索できる。

f:id:kazumaxneo:20210519100117p:plain

phenotypeの条件はデフォルトではHealthになっている。

f:id:kazumaxneo:20210519100234p:plain

追加で条件を設定することが可能。デフォルトではphenotype(health)に加えて、Age 18-25, BMI 18.5-24.9の条件が指定されている。追加条件が不要であれば右端のdeleteボタンをクリックする。

f:id:kazumaxneo:20210519100555p:plain

 

Experimental typeは16Sまたはメタゲノミクスを選べる。

f:id:kazumaxneo:20210519100854p:plain

このように、シーケンスタイプやリード数など技術的なメタデータや、関連する表現型(疾患または健康)、年齢、性別、BMIボディマス指数)などの宿主関連のメタデータによってサンプルやランをフィルタリングすることができる。

 

検索結果

f:id:kazumaxneo:20210519100743p:plain

project ID、Run ID、phenotype IDはクリックできるようになっている。

 

Project IDのリンク先では、関連する表現型、文献などが確認できる。

f:id:kazumaxneo:20210519225433p:plain

Run IDのリンク先では、菌のrelative abundanceが確認できる。

f:id:kazumaxneo:20210519230852p:plain

phenotype IDのリンク先では関連する菌を調べることができる。

f:id:kazumaxneo:20210519231119p:plain

それぞれの菌がどのプロジェクトにどれくらい存在するかを調べることができる。また、NCBI taxonomyにもリンクしている。

 

Phenotypeタブ

https://gmrepo.humangut.info/phenotypes

表現型とは、糞便サンプルを採取したヒトの健康状態や病気の状態を指す。合計94種類の表現型がデータベースに登録されている。

f:id:kazumaxneo:20210519130337p:plain

 

Taxaタブ

分類がアサインされた種と属の一覧。特定の細菌種と疾患との関係を調べたりすることができる。

f:id:kazumaxneo:20210519130919p:plain

 

f:id:kazumaxneo:20210519131255p:plain

f:id:kazumaxneo:20210519131325p:plain


f:id:kazumaxneo:20210519131256p:plain

 

Marker taxon

"Marker taxon”とは表現型間の相対的な存在量に有意な差を示す(種および属レベルの)分類を指し、LEfSe(Linear discriminant analysis Effect Size)分析を用いて同定された。

f:id:kazumaxneo:20210519131450p:plain

f:id:kazumaxneo:20210519131551p:plain



 

引用

GMrepo: a database of curated and consistently annotated human gut metagenomes
Sicheng Wu, Chuqing Sun, Yanze Li, Teng Wang, Longhao Jia, Senying Lai, Yaling Yang, Pengyu Luo, Die Dai, Yong-Qing Yang ... Show moreAuthor Notes
Nucleic Acids Research, Volume 48, Issue D1, 08 January 2020, Pages D545–D553