macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ヒトmycobiomeプロファイリングのために真菌の分類学的および機能的データベースを組み込んだパイプライン FunOMIC

 

 細菌マイクロバイオームの解析は日常的に行われるようになったが、真菌マイクロバイオームの解析は、頑健なデータベースとバイオインフォマティック・パイプラインの欠如によって、いまだに妨げられている。ここでは、真菌を同定するための分類学的データベース(160万個のマーカー遺伝子)と機能的データベース(340万個の非冗長真菌タンパク質)を組み込んだパイプライン、FunOMICを紹介する。このツールを2,600以上のヒトメタゲノムサンプルに適用したところ、地理、身体部位、疾患に関連する真菌種が明らかになった。相関ネットワーク解析により、菌界間相互作用に関する新たな知見が得られた。このパイプラインと2つの最も包括的な真菌データベースにより、mycobiome研究のリソースが急速に成長することが期待される。

 

真菌は、消化管(GIT)、口腔、膣、皮膚など、ヒトの様々な部位に常在菌として偏在している。特定の状況下では、これらの常在真菌の一部は病原性真菌として同定され、害を引き起こす可能性がある。また、細菌と真菌の相互作用は、真菌感染によって引き起こされる疾患を悪化させたり、軽減させたり、抵抗させたりすることが報告されている。常在菌は集団によって大きく異なるため、ヒトにおける真菌コミュニティの確立や、その主要な担い手の同定を妨げている可能性がある。従って、常在真菌と宿主および常在菌との相互作用を大規模な研究で調査することは極めて重要である。

ヒトマイクロバイオームにおける原核生物群集とは異なり、mycobiomeとして知られる真菌集団は、培養不可能な微生物に関連する課題、ヒトマイクロバイオーム群集における存在量が極めて少ないこと、個体間のばらつき、包括的なデータベースの欠如など、様々な理由により、未だ研究が不十分である。ここ数十年、ハイスループットシーケンス(HTS)技術の急速な発展とともに、ヒトの細菌および真菌マイクロバイオームの研究は、培養に依存する方法から培養に依存しない方法へと徐々に移行してきた。

真菌バイオームの特性解析は、リボソーム領域の内側に位置する内部転写スペーサー(ITS)または18S rRNA(18S)領域の標的化HTSによって行われてきた。原核生物の16S rRNA (16S)遺伝子と同様に、ITSと18S領域は、異なる真菌生物間で保存され、非常に可変的なセグメントを持っている。さらに、ITSは真菌類の普遍的なDNAバーコードマーカーとして認識されている。ヒトの真菌バイオームに関する現在の知識のほとんどは、ITSと18Sアンプリコンの塩基配列解析から得られている 。しかし、16Sアンプリコンシーケンスアプローチと同様に、ITSと18Sアプローチでは、増幅効率のばらつき、種の定義に関連する問題、遺伝子コピー数の大きなばらつきによるバイアスが生じる可能性があり、近縁種間の相対存在量分析が制限される。リボソームDNAに代わるものとして、シングルコピーのマーカー遺伝子群がマイクロバイオームの分類学アノテーションの候補となりうる。これらの遺伝子は、原核生物の種を特定する上で16Sよりも高い解像度を提供することが示されており、ヒトの糞便微生物叢における細菌の相対的な存在量と豊富さを推定するために使用されている。

シーケンシングの低コスト化に伴い、環境内の微生物ゲノムの遺伝子プールから、アンプリコンアプローチよりも偏りのない情報を取得できるショットガンアプローチが、マイクロバイオーム研究においてより魅力的なツールとして浮上してきた。メタゲノムデータから真核生物の群集組成を決定するために、様々な戦略やデータベースが開発されてきたが、ヒトマイクロバイオームの文脈で真菌類に取り組んだものはほとんどない。

ヒトマイクロバイオームのより正確な解析を可能にするために、本著者らはFunOMIC-TとFunOMIC-Pという2つの組み込み真菌データベースを提案し、それぞれ分類学的プロファイリングと機能的プロファイリングのための自動化パイプラインに統合した。パイプラインの機能は、次世代シーケンスリードを2つのFunOMICデータベースにマッピングすることで実現される。FunOMIC-Tには、4,839の高品質真菌ゲノムデータから得られた160万以上のシングルコピーのマーカー遺伝子が含まれる。FunOMIC-Pは、収集された真菌ゲノムの対応するコーディング遺伝子とUniprotデータベースの真菌サブセットを統合したもので、300万以上の真菌タンパク質を含む。FunOMICは、一般に公開されている2,679のヒトメタゲノムサンプルセットの解析に使用され、臨床的および人口統計学メタデータに関連する真菌の分類学的および機能的シグネチャーを明らかにした。

 

What is FunOMIC?

https://manichanh.vhir.org/funomic/

 

インストール

依存

  • bowtie2
  • samtools
  • flash2
  • diamond
  • KEGGREST

Github

https://github.com/ManichanhLab/FunOMIC?tab=readme-ov-file

mamba create -n FunOMIC python=3.10 -y
conda activate FunOMIC
mamba install bioconda/label/cf201901::bioconductor-keggrest -y
mamba install -c bioconda bowtie2 samtools flash2 diamond -y

#本体
git clone https://github.com/ManichanhLab/FunOMIC.git
export PATH=$PATH:<PATH>/<to>/FunOMIC

 

データベース

https://manichanh.vhir.org/funomic/

3ついずれもダウンロードして解凍する。FunOMIC-Pが900MBほどで残りは9GB近くある。日本からだと回線が遅いためか1日ほどかかった。

 

実行方法

ショートリード、出力ディレクトリ、3つのデータベースを指定する。

FunOMIC.sh -1 1.fastq -2 2.fastq -p put -o outdir -a BacterialDB/ -b FunOMIC-T/ -c FunOMIC-P/

ラン直後にエラーになる。改善できたら追記します。

 

引用

FunOMIC: Pipeline with built-in Fungal Taxonomic and Functional Databases for Human Mycobiome Profiling.

Xie, Z. and Manichanh, C. (2022).

Computational and Structural Biotechnology Journal Volume 20, 2022, Pages 3685-3694

https://doi.org/10.1016/j.csbj.2022.07.010