macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

マイクロバイオームと表現型のデータを関連付ける統合データベース解析プラットフォーム MANTA

 

 人体の内部または表面に存在する微生物、特に腸内マイクロバイオームは宿主との相互関係の中で生きている。これらの関係は宿主の代謝に重要な貢献をしており、通常、人間の健康には欠かせないものである。腸管のマイクロバイオータ(腸内マイクロバイオータ)は、宿主が消化できない栄養素を分解したり、宿主が生産できないビタミンを合成したりするのを助けることができる。マイクロバイオータの変化は、肥満などの疾患につながる可能性がある[ref.1-4]。そのため、マイクロバイオータの研究は公衆衛生にとってかなりの重要性を持っている。

 次世代シークエンシング技術の向上と大規模解析のコストの低下により、例えば 16S rRNA 遺伝子のアンプリコンシークエンシングによる微生物群集の研究が容易になってきた。しかし、これらのシークエンシングデータの処理には膨大な計算量が必要となる。微生物データのポストシーケンス解析は、大きく分けて3つのフェーズから構成される。(1) データのクリーニングと正規化:ビニング、ペアエンドの結合、品質フィルタリングなど、データソースやシーケンシング技術に応じて複数のステップからなる;(2) タクソノミーとアバンダンスの推定:処理されたシーケンスリードにタクソノミーを付与し、生物学的試料中のアバンダンスを推定する;(3) アルファ、ベータの多様性の分析と解釈、機能的アノテーションと微生物アバンダンスと生理学的、環境的、または行動的要因との相関関係を解析する。

 上記の第一段階と第二段階の両方とも、16Sアンプリコンプロファイリングとショットガンシーケンシングの両方において、洗練された、時間のかかる、高い計算資源を必要とする。QIIMEとKrakenは、このカテゴリーのよく知られた例である。他の関連ツールとしては、MEGAN、METAGEN-assist、EBIメタゲノミクス、MG-RASTなどがある。

 対照的に、第三段階では、特に食事、行動、経済状態などの高次元性を持つパラメータが考慮される場合には、パラメータの選択と出力の可視化のために、研究者との広範なユーザーインタラクションが必要となる。このような多次元データタイプの組織化と保存は、困難であり、またトリビアルではない作業である。MicrobiomeAnalyst、Calypso、Shiny-phyloseq、およびMianは、これらの課題に対処するためのウェブベースのオンラインツールである。これらのツールは、R(phyloseq、vegan、ade4など)やPythonパッケージを仲介するための対話的なウェブインターフェースを提供している。これらのツールは、様々な種類の可視化や高度な解析アプローチを提供しているが、データを保存してプロジェクトメンバー間で共有したり再利用したりすることはできない。また、これらのツールの中には、研究者がデータをサードパーティのサーバーにアップロードする必要があるものもあり、データのセキュリティ上の懸念を招くことが多い。大規模な多次元メタデータを扱う場合、研究者はしばしば、異なるパラメータを組み合わせたり、分析フレームワークでデータの異なるサブセットを使用したりすることの有効性を反復的に調べる必要がある。このような分析には、ユーザが迅速かつ効率的に層化されたデータセットを操作できるデータベースが非常に有用である。

 そこで著者らは、(1)ユーザー側でプログラミングをすることなく、迅速かつ効率的にデータを分析するためのスムーズでインタラクティブユーザーインターフェース、(2)データを容易にアクセス可能な形式で保存する機能、(3)迅速なアクセスと安全なデータ保存を保証するために、個々のワークステーションやサーバーに柔軟かつ簡単にインストールできるツールを開発することを目指した。

 本論文では、マイクロバイオームと表現型データのための統合的なデータベースと解析プラットフォームを作成するためのソフトウェアプログラムであるMANTAについて説明する。MANTAには2つの重要なユニークな機能がある。(1)オンラインでもローカルでも、ユーザーフレンドリーでアクセスしやすいデータベースにデータを保存し、共有する機能、(2)膨大なサイズで多次元的である可能性のある食生活や生活習慣などの他のデータとの相関関係を調べるためのインタラクティブな環境を提供することである。MANTAはスケーラブルであり、公開されているオープンソースのコードに必要に応じて機能を追加することができる。

 また、日本人20人から得られた食事摂取量と身体活動量を含むマイクロバイオームと生活習慣関連の実データセットを用いて、本プラットフォームの有用性を実証した。この事例研究では、特定の細菌の相対的な豊富さと特定の生活習慣パラメータとの関係について、本プラットフォームが新たな仮説を提示できることを示している。

 

Documentation

https://mizuguchilab.org/manta/documentation.html

 

HP

https://mizuguchilab.org/manta/

 

HPより

MANTA (Microbiota And pheNotype correlaTion Analysis platform) はソフトウェアで、マイクロバイオームと表現型のデータを関連付ける統合的なデータベースと分析プラットフォームを作成することができます。MANTAはWebアプリケーションであり、ほとんどの最新のWebブラウザで動作します。

 

ここではMANTA basicについて紹介します。

ダウンロード

Github

 

HPからMANTA basicデスクトップバージョンをダウンロードする。windows版とmac版が用意されている。

https://mizuguchilab.org/manta/

f:id:kazumaxneo:20210609004214p:plain

 

 

ダウンロードしたmanta-v0.1-windows-x64.zipを解凍した。

f:id:kazumaxneo:20210609003953p:plain

Macの場合はファイルをダウンロードした後、インストーラーを実行する。

f:id:kazumaxneo:20210609103038p:plain

applicationに入るので、叩くとデフォルトブラウザが起動。 

 

プログラムの実行方法

中のexeファイルを実行する。

f:id:kazumaxneo:20210609004121p:plain

 

解析の流れ

詳しいチュートリアルが用意されているので、ここでは簡単に流れだけ確認しておきます。

 

はじめにデータをアップロードする。

microbiotaとphenotype parametersの2種類のファイルをアップロードする必要がある。microbiotaのファイル形式は、タブ区切りの表形式(tutorialのリンクがあるサンプルデータを参照)で、BIOM(The Biological Observation Matrix)形式のファイル(https://biom-format.org/)から簡単に変換できる。

テストデータ(microbiome-20-samples.txt)

 

f:id:kazumaxneo:20210609010945p:plain

1列目にOTU(kingdomからの分類階級)、2列目以降にサンプルそれぞれのアバンダンス。

 

もう1つのphenotype parametersは、各列に異なるパラメータ、各行に異なるサンプルを含むタブ区切りのテーブル形式ファイル

テストデータ(parameter-values-20-samples.txt)。

f:id:kazumaxneo:20210609011822p:plain

最初の列はサンプルの識別子(id)で、2列目以降にパラメータ。最初の行はパラメータのヘッダーでなければならない。

 

まずはphenotype parametersを指定。ファイルを選択後、Uploadボタンを押す。

f:id:kazumaxneo:20210609011928p:plain

サンプルIDとパラメータのヘッダが正しく配置されていればOKをクリック。

f:id:kazumaxneo:20210609012012p:plain

 

次にmicrobiotaファイルをアップロードする。microbiotaに変更後、ファイルを選択。

f:id:kazumaxneo:20210609012123p:plain

問題なければOKをクリック。

f:id:kazumaxneo:20210609005451p:plain

 

Display column settingタブではデータ解析ページに表示するパラメータを3つまで選択できる。

f:id:kazumaxneo:20210609013800p:plain

 

Parameter Settingタブ

f:id:kazumaxneo:20210609014121p:plain

クリックしてタイプを変更できる。デフォルトでは、アップロードされたパラメーターはすべて「フリーテキスト」タイプに設定されている。

f:id:kazumaxneo:20210609014208p:plain

相関係数の計算には、「連続変数(continuous variable)」タイプのみが使用できる。PCoAプロットのデータポイントの色付けには、「continuous variable」、「unranked category」、「ranked category」のみが使用できる。その他」タイプは、残りのいずれにも属さないデータタイプのために設計されている。現時点では、このタイプのデータは「フリーテキスト」タイプと同様に扱われ、相関計算には使用されない。

 

設定が終わったら、右上のメニューボタンからData analysisに切り替える。

f:id:kazumaxneo:20210609012828p:plain

右上のボタンからいつでもData Managementに戻ることが可能。

 

Data analysisに切り替えた。データ解析ページのメインページには、デフォルトではサンプルの識別子のリストのみが表示されている。

f:id:kazumaxneo:20210609012942p:plain

 

サンプルを選択する。

f:id:kazumaxneo:20210609013527p:plain

右端のボタンから一度に選択することが可能。Startをクリック。

 

Composition

f:id:kazumaxneo:20210609014613p:plain

rankは変更可能。現在はphylum。

f:id:kazumaxneo:20210609021418p:plain

 

Bar Chart

f:id:kazumaxneo:20210609021400p:plain

Heatmap

f:id:kazumaxneo:20210609021457p:plain

 

PCoA chart

f:id:kazumaxneo:20210609021548p:plain

引用

MANTA, an integrative database and analysis platform that relates microbiome and phenotypic data
Yi-An Chen , Jonguk Park , Yayoi Natsume-Kitatani , Hitoshi Kawashima, Attayeb Mohsen, Koji Hosomi

PLOS ONE, Published: December 4, 2020

 

参考

https://www.nibiohn.go.jp/nibio/img/introduction/operation/17-2-4.pdf