DEICODE - macでインフォマティクス

　β多様性とは、生物群集間の分類学的または系統的構成の違いを表す生態学的な概念である。β多様性法は、多くのマイクロバイオーム統計解析パイプラインの主要なコンポーネントとなっている。これらの分析により、複雑な微生物群集の概要を把握し、微生物群集を差別化する環境要因を特定することができる。しかし、微生物生態学者がデータを分析するために利用できる距離メトリックは数十種類あり、それぞれの距離メトリックは特定のデータ特性を捉えるように調整されている。そのため、β多様性プロットは、選択した距離測定基準によって劇的に異なって見えることがあり、生データの解釈の違いが発生している(ref.1)。

　β多様性解析における主な交絡因子の1つは、マイクロバイオームデータセットがまばらであること（すなわち、ほとんどの微生物がほとんどのデータセットには存在しないこと）であり、これが序列プロットにおいてスパイクパターンやhorseshoeパターンを生じさせ、解析を複雑にすることが示されている（ref.2、3）。さらに、主成分分析（PCA）は、正規分布と線形関連変数の共通の仮定を持っており、生物学的データではしばしば違反している(ref.4,-7)。その結果、Jaccard指数のような分類群の有無のみを考慮する古典的な距離測定法や、Bray-Curtis symmetrized distanceのような相対的な豊富さの度合いを明示的に考慮する測定法が一般的に使用されている。UniFrac (ref.8)で示されたように、系統情報を取り入れることで、微生物のβ多様性の推定は大幅に改善された。しかし、 presence/absence methodでは、しばしばコミュニティ間の差が顕著に現れ、それは豊富さに基づいた方法では不明瞭である。これは逆説的に見えるかもしれないが、豊富さに基づいた手法はコミュニティに関するより多くの情報を統合しているからである。しかし、重要な担い手が豊富な種ではなく希少な種であったり、豊富な種が大きなランダム変動を示す場合には、豊富さの情報は系統的な指標を用いても結果を明確にするどころか不明瞭にしてしまう可能性がある(ref.9)。

　表現型とマイクロバイオーム全体の関連性を明らかにできないのは、微生物分類群の豊富さの相対的な変化を適切に考慮していない方法の症状かもしれない。この原理を実証するために、論文図1Aのシナリオを考えてみる。このシナリオでは、taxon1は他の2つのtaxonよりもはるかに少ないが、時間の経過とともに指数関数的に増加している。taxon2は個体数が多く、時間の経過とともに安定している。 taxon3もまた、豊富さは高いが、ランダムに変動している。第1群集と他の2つの時間点との間のユークリッド距離は非常に変動しており、taxon1の指数関数的な成長によって誘発される変化を捉えていない。ユークリッド距離のこの変動性は、主に豊富なtaxonのランダムな変動によって駆動される。

　ユークリッド距離とは対照的に、Aitchison距離（論文式2）のような組成的距離測定法は、そのような相対的な変化を適切に説明することができる(ref.10)。ここでは、Aitchison距離は対数倍の変化のみを考慮しており、高個体数のtaxonでの偏差が絶対的なスケールでは大きいが、相対的なスケールでは小さいという事実を反映している。100カウントと120カウントの差は20カウントであり、これは最初のtaxonの豊富さに比べれば大きいが、20％の増加に過ぎない。これに対して、最初の分類群では約2,000%の増加が見られ、結果として、Aitchison距離は低個体数種の変化も含めた大きな相対的な変化で駆動されている。

　サンプル間で大きな倍数変化を示す微生物は、Aitchison距離の計算においてより重くウエイトされることになる。しかし、この距離メトリックはゼロを扱うことができず、したがって、マイクロバイオーム研究を特徴づける疎なデータセットに適用することは困難である。マイクロバイオームデータにゼロを生じさせる可能性のあるプロセスは多くある。それは、アンダースサンプリングがあった可能性があり、シーケンシングデータ中に低頻度の微生物が検出されなかったことが考えられる。また、サンプルの不均一性により、環境中に存在しているにもかかわらず検出されなかった可能性もある。さらに、環境中に微生物が全く存在していない可能性もある。これらの可能性のあるすべてのプロセスを考慮すると、シーケンシングデータからこれらの異なるプロセスを区別することは実行可能ではない(ref.11, 12)。この問題を回避するために、本著者らは、行列補完を使用して疎なデータも明示的に扱うことができる新しい構成的距離メトリックを提案する。これは、すべてのゼロを欠損値として扱い、行列補完を用いてこの欠損データを扱うモデルを構築することによって行われる。

　行列補完は元々、疎なデータを扱うための自然な解決策として、ユーザー項目の評価を予測するためのレコメンドシステムのコンテキストで開発された(ref.13)。例えば、Netflixデータベースには、すべての映画ごとにすべての顧客を詳細に記述した行列があり、そのエントリは映画の評価を表している。しかし、各ユーザはNetflixで利用可能な映画のごく一部しか評価していないため、データベースの約1%しかゼロではない値を含んでいない。その結果、特定の顧客に特定の映画を推薦しようとするとき、モデルは顧客が提供した利用可能なレーティングに基づいて訓練される必要がある。マトリックス補完タスクは、この種のタスクを実行するための最先端の手法の一つとなっている。

　この論文では、シミュレーションベンチマークと2つのケーススタディを用いて、マトリクス補完を用いて疎なマイクロバイオームデータセットを前処理することの有用性を実証し、構成の順序付けを可能にし、サンプル間の違いの原因となる特徴に関する情報を保持することを示す。

Robust Aitchison PCA Beta Diversity with DEICODE

インストール

本体　Github

#conda
conda create -n deicode -y
conda activate deicode
conda install -c conda-forge deicode -y

#biomが入らなかったので追加導入した
conda install -c bioconda biom-format

> deicode --help

$ deicode --help

Usage: deicode [OPTIONS] COMMAND [ARGS]...

Options:

--help Show this message and exit.

Commands:

auto-rpca Runs RPCA with an rclr preprocessing step and auto-estimates...

rpca Runs RPCA with an rclr preprocessing step.

> deicode rpca --help

$ deicode rpca --help

Usage: deicode rpca [OPTIONS]

Runs RPCA with an rclr preprocessing step.

Options:

--in-biom TEXT Input table in biom format. [required]

--output-dir TEXT Location of output files. [required]

--n_components INTEGER The underlying low-rank structure. The input

can be an integer (suggested: 1 < rank < 10)

[minimum 2]. Note: as the rank increases the

runtime will increase dramatically.

[default: 3]

--min-sample-count INTEGER Minimum sum cutoff of sample across all

features. The value can be at minimum zero

and must be an whole integer. It is

suggested to be greater than or equal to

500. [default: 500]

--min-feature-count INTEGER Minimum sum cutoff of features across all

samples. The value can be at minimum zero

and must be an whole integer [default: 10]

--min-feature-frequency INTEGER

Minimum percentage of samples a feature must

appear with a value greater than zero. This

value can range from 0 to 100 with decimal

values allowed. [default: 0]

--max_iterations INTEGER The number of iterations to optimize the

solution (suggested to be below 100; beware

of overfitting) [minimum 1] [default: 5]

--help Show this message and exit.

> deicode auto-rpca

$ deicode auto-rpca -h

Usage: deicode auto-rpca [OPTIONS]

Try 'deicode auto-rpca --help' for help.

Error: no such option: -h

(deicode) kamisakakazumanoMac-mini:human-unmap kazu$ deicode auto-rpca --help

Usage: deicode auto-rpca [OPTIONS]

Runs RPCA with an rclr preprocessing step and auto-estimates the rank

(i.e. n-components parameter).

Options:

--in-biom TEXT Input table in biom format. [required]

--output-dir TEXT Location of output files. [required]

--min-sample-count INTEGER Minimum sum cutoff of sample across all

features. The value can be at minimum zero

and must be an whole integer. It is

suggested to be greater than or equal to

500. [default: 500]

--min-feature-count INTEGER Minimum sum cutoff of features across all

samples. The value can be at minimum zero

and must be an whole integer [default: 10]

--min-feature-frequency INTEGER

Minimum percentage of samples a feature must

appear with a value greater than zero. This

value can range from 0 to 100 with decimal

values allowed. [default: 0]

--max_iterations INTEGER The number of iterations to optimize the

solution (suggested to be below 100; beware

of overfitting) [minimum 1] [default: 5]

--help Show this message and exit.

実行方法

deicodeには2つのコマンド、 rpca と auto-rpca がある。auto-rpcaは行列の下位ランクを自動的に推定し、n_componentsパラメータの入力を必要としない。rpcaでは，n_componentsを明示的に設定する必要がある。コマンドの構造はQIIME2のコマンドに従っている。QIIME 2でのDEICODEの使用チュートリアル（リンク）を参照する。

QIIME 2上ではなく、単独で使用する。HUMAnN2などで得たbiom形式のファイル（生のカウントテーブル）を指定する。

deicode auto-rpca --in-biom input.biom --output-dir outdir

引用
A Novel Sparse Compositional Technique Reveals Microbial Perturbations

Martino C, Morton JT, Marotz CA, Thompson LR, Tripathi A, Knight R, Zengler K

mSystems. 2019 Feb 12;4(1). pii: e00016-19