macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

マイクロバイオームデータの統計的・機能的・統合解析を行う MicrobiomeAnalyst 2.0

 

 マイクロバイオーム研究は、多様性プロファイリング、機能特性解析、トランスレーショナルアプリケーションなど、多様な目的を持つ生物医学、農業、環境科学において日常的に行われるようになってきた。その結果、複雑で、しばしばマルチオミックスデータセットは、主要なパターン、重要なバイオマーカー、潜在的な活性を明らかにするために、強力で、しかも使いやすいバイオインフォマティクスツールを必要としている。MicrobiomeAnalyst 2.0は、マイクロバイオーム研究から一般的に生成されるデータ出力の包括的な統計、可視化、機能的解釈、統合的解析をサポートしている。前バージョンと比較して、MicrobiomeAnalyst 2.0には3つの新しいモジュールが追加された。(i) アンプリコンデータの処理と分類学アノテーションを行うRaw Data Processingモジュール、(ii) ペアになったマイクロバイオームとメタボロミクスデータセットの共解析を通じて、コミュニティ組成と代謝活性の関連性を明らかにするMicrobiome Metabolomics Profilingモジュール、(iii) 複数の研究にまたがるデータセットを統合して一貫性のあるシグネチャーを同定するStatistical Meta-Analysisモジュール。その他の重要な改良点としては、多因子差分解析のサポートや、一般的なグラフ出力用のインタラクティブな可視化機能の追加、機能予測や相関解析の手法の更新、最新の文献に基づく分類群セットライブラリの拡張などがある。これらの新機能は、最近の1型糖尿病研究のマルチオミクスデータセットを用いて実証されている。MicrobiomeAnalyst 2.0は、microbiomeanalyst.caで無料で利用できる。

 

Resources(チュートリアルのPDFやテストデータセット、Taxon Setsなど)

https://www.microbiomeanalyst.ca/MicrobiomeAnalyst/docs/Resources.xhtml

format

https://www.microbiomeanalyst.ca/MicrobiomeAnalyst/docs/DataFormat.xhtml

 

webサービス

https://www.microbiomeanalyst.caにアクセスする。

Click to startを選択。

 

6つの分析手法が利用できる。左上から、マーカー遺伝子のプロファイリング、メタゲノムショットガンデータのプロファイリング、タクソンセット解析(エンリッチされた微生物シグネチャーの分析)、微生物メタボロミクス(マイクロバイオームとメタボロミクスデータの共解析)、統計的メタ解析(複数のマーカー遺伝子データの統合解析)、生データ処理(16S/18S/ITSリードをASVテーブルに変換)となる。

 

Marker data profilingを見てみる。Marker data profilingでは16S OTUテーブルやASVファイルなどのカウントファイルを入力としてアンプリコンデータの分析を行うことができる。

タブ区切りテキストデータ、BIOM format、mothur出力ファイルに対応している(format参照)。

 

ここではダウンロードできるIBD_dataを使う。

 

ファイルを指定する。指定したのはASVテーブルファイル(1列目に配列、2列目以降に各サンプルのabundance列)、メタデータファイル(ctrl or treat、など記載)、taxonomyファイル、treeファイルとなる。

 

Try our exampleタブからはexampleも選べる。文字をクリックするとデータもダウンロードして確認できる。

Submitをクリック。

 

ユーザーがアップロードしたデータの処理とサマリー情報が確認できる。下には図もプリントされている( 各サンプルに含まれるライブラリーのサイズやリードの総数)。確認後に一番下のproceedボタンをクリック。

 

Data filtering。低品質な特徴を除去し、下流の統計分析を改善する。スライダーを左端(値:0)にドラッグすることで、どのフィルターも無効にできる。フィルタリング条件を決めたら中央のsubmitボタンをクリックする(フィルタリングなしの時もクリックする必要がある)。作業後に一番下のproceedボタンをクリック。

HPより

  • Low count filter - ごく少数のサンプルでカウント数が非常に少ないフィーチャーは、シーケンシングエラーや低レベルのコンタミネーションの可能性がある。最小カウント数を指定する(デフォルト4)。
  • 20% prevalence filterとは、その値の少なくとも20%が少なくとも4カウントを含むことを意味する。平均値や中央値に基づいてフィルタリングすることもできる。
  • 低分散フィルター - 実験条件を通して一定に近い特徴は、調査中の条件と関連する可能性が低い。その分散は、四分位範囲(IQR)、標準偏差または変動係数(CV)を使って測定できる。カットオフに基づく最も低いパーセンテージは除外される。

 

Data Normalization

正規化する。データに存在する不均一なシーケンス深度、サンプリング不足、スパース性を考慮するために必要である。(意味のある比較の前に有効)この分野で一般的に使用されている正規化方法がいくつかある。(3つのカテゴリー:レアファクション、データスケーリング、データ変換)を選んでsubmitをクリックする。

マニュアルより

  • 正規化の目的は、サンプリング深度のばらつきとデータの疎らさに対処し、より生物学的に意味のある比較を可能にすることである。ライブラリーサイズが大きく異なる場合(10倍以上)には、arearfyingも推奨される。なお、arearfyingは主に16Sマーカー遺伝子データに用いられ、ショットガンメタゲノミクスデータには無効である。これらの方法はすべて、生のカウントデータを入力として必要とする。データを希釈化した後、データスケーリングまたはデータ変換を行うことができる。ただし、データスケーリングとデータ変換の両方を適用することはできない。スケーリングまたは変換されたデータは、もはや有効なカウントデータではないからである。

 

結果はいくつかの項目に別れている。

 

Visual Exploration: 直感的な可視化技術によるデータの概要と一般的なパターンの発見 

Stacked bar/area plot

 

Interactive pie chart

 

Rarefaction curve

 

Heat tree

 

Community Profiling: 複数の確立された統計手法を用いたコミュニティ・プロファイルの定量的分析 

Alpha diversity

Beta diversity

Core microbiome

 

Clustering & Correlation Network: データ内の固有のパターンと相関関係を識別(教師なし) 

Interactive Heatmap

 

Dendrogram

Correlation network

Pattern search

 

Comparison & Classification: 統計的・機械学習的手法(教師あり)による重要な特徴やバイオマーカー候補の同定 

Single-factor analysis

Multi-factor analysis

LEfSe

Random Forest

Functional Prediction: 16Sマーカー遺伝子データからのメタゲノム機能プロファイルの予測

PICRUSt (Greengenes)

Tax4Fun (SILVA)

Tax4Fun2

(配列情報が必要)

 

次にRaw Data processingを見てみる。

Raw Data processingでは、DADA2パイプラインに基づく解析が行われる。サンプルを記述するメタデータファイルとともに、demultiplexcingされたfastq.gzファイルを指定する。シングルエンドまたはペアエンドの16S/18S/ITSアンプリコンシーケンスデータをサポートしている。シーケンスデータは、1データにつき1つのzip/fastq.gzファイルとしてアップロードする。元のfastqファイル(圧縮前)の末尾はR1.fastq/R2.fastqとする。
メタデータは、ファイル名、グループラベル、その他の実験因子など、複数のカラムを含むプレーンテキスト(.txt)ファイルとしてアップロードする。

すべてのファイルを選択し、アップロードをクリックする。アップロードが完了したらProceedをクリックして続行する。ここではexample dataを使う。

Data integrity

 

Parameter Settings

 

Job status overview

計算が終わるとProceedがクリックできる。

出力

結果はダウンロードできる。また、この結果から上で紹介したMarker data profilingを行うこともできる。

 

続いてshotgun data profilingも少し見てみる。これはメタゲノムショットガンデータのプロファイリングのための機能となる。使用するには、KO list、BIOM format、発現データ付きのKO listいずれかを指定する。

画像はexampleの指定画面。クリックするとデータをダウンロードして確認できる。

 

出力例。KO list指定時。

指定したmoduleがハイライトされる。


簡単な説明しか出来ませんでしたが、実際はより多機能です。アクセスしてみて下さい。

引用

MicrobiomeAnalyst 2.0: comprehensive statistical, functional and integrative analysis of microbiome data 
Yao Lu,  Guangyan Zhou,  Jessica Ewald,  Zhiqiang Pang,  Tanisha Shiri,  Jianguo Xia
Nucleic Acids Research, Published: 11 May 2023