2回目の続きになります。今回はNASCARで利用可能なメタ16S分析ツールSHAMANを簡単に紹介していきます。
SHAMANのPreprintよリ
定量的メタゲノム技術は、マイクロバイオームと環境や個人の要因(例えば、疾患、地理的起源など)との関連を特定するために広く展開されてきた。微生物群集の組成および/または豊富さの変化を分析することで、有望なバイオマーカーが得られており、特に肝硬変(1)、下痢(2)、大腸がん(3)と関連していたり、宿主に対する様々な病原性(4)またはプロバイオティクス(5)の効果と関連していたりする。
Metataxonomic研究では、微生物群集の構成を手頃な技術で特徴付けることができるように、rRNAの1つまたは複数の領域を特異的に増幅するために、配列決定の前に選択が行われる(通常、原核生物/古細菌の場合は16Sまたは18SのrRNA、真核生物の場合はITS、23Sまたは28SのrRNA)。
典型的なワークフローには、以下のようなステップが含まれる。(i) OTU (Operational Taxonomic Unit) ピッキング (dereplication, denoising, chimera filtering and clustering)(6)、(ii) 各サンプルの OTU 定量、(iii) 参照分類学データベースに対する OTU のアノテーションである。このプロセスは、関与するサンプル数とシークエンスの深さの両方に依存して、かなりの計算資源を必要とする場合がある。このような作業を行うために、Mothur(7)、Usearch(8)、DADA2(9)、Vsearch(10)のようないくつかの手法が現在利用可能である。人気の高い Qiime(11) は、pythonと統合された環境を提供することで、これらのタスク(i~iii)と可視化を簡素化する。図式的には、データ処理が終了すると、contingency table(wiki) とtaxonomic table の両方が得られる。これらの表には、それぞれ異なるサンプルにおけるOTUの豊富さとOTUの分類学的注釈が含まれている。データは通常、標準的なBIOMフォーマット(12)で表現されている。
統計分析は、微生物量の有意な変動をスクリーニングするために実行される。この目的のために、Metastats(13) や Metagenomeseq(14) などのいくつかの R パッケージが開発された。もともとRNA-seq用に設計された他のアプローチ、すなわちDESeq2(15)やEdgeR(16)も、Metataxonomic研究を実施するために一般的に使用されていることに注目すべきである(17, 18)。これらは、OTUの豊富さに対する特定の因子の効果をテストするための統計的モデリングのためのR統合環境を提供します。それにもかかわらず、これらの異なる方法をすべて使用するには、Unix、Rの技術的なスキルとメタゲノミクスデータの処理経験が必要です。この目的のために、特にこの分野で一般的に適用されているバイオインフォマティクスや統計的手法の技術的な知識がないユーザーのため、 そしてMetataxonomicデータの解析を簡単にする方法を提供するためにSHAMANを開発した。
SHAMANは、生のシーケンシングデータに基づいてOTUの組成と豊富さを推定し、処理されたファイルの統計解析を実行するための包括的なアプローチである。まず、ユーザーは生データをFASTQ形式でサブミットし、バイオインフォマティックワークフローのパラメータを定義することができる。出力は、アノテーションに参照として使用した各データベースのBIOMファイル、Newick形式の系統樹、および同定された全てのOTUのFASTA形式配列で、これらがユーザーに返却される。第二のステップは、統計解析の実行で構成されている。ユーザーは、各サンプルを1つまたは複数の説明変数に関連付ける "ターゲット "ファイルを提供しなければならない。これらの変数は、ターゲットファイルで自動的に検出される。低頻度の特徴を除去するために、OTUの分割行列の自動フィルタリングを有効にすることができる。比較されるコントラストの設定も大幅に簡素化された。これは、関心のあるグループを定義する際にユーザーの選択を方向付けるフォームに記入することで構成されている。プロセスの3つの重要なステップでは、データを可視化するためのいくつかのオプションが利用可能である:品質管理、生物学的分析、コントラスト比較。各ステップでは、データを探索するために、多くの一般的なビジュアルディスプレイがSHAMANに実装されている。また、分類木や変数に応じたカウント分布を可視化するアバンダンスツリーや、2つのコントラストにおける特徴のp値を比較するロジットプロットなど、他のアプリケーションでは利用できないオリジナルの表示も数多く用意されている。図は、特定の統計的結果を強調するために(例えば、与えられたコントラストで有意な特徴を表示する、コントラスト間の交差を実行する)、より特異的にするために(例えば、与えられたモダリティでの特徴の豊富さ)、またはグラフの美学を向上させるために(視覚的なパラメータを変更することによって)調整することができる。図はpublication基準に適合しており、対応するファイルは簡単にダウンロードすることができる。
Metataxonomic研究のデータを解析するためにいくつかのウェブアプリケーションが開発されており、特にバイオインフォマティクスデータ処理のためのFROGS(19)やQiita(20)、統計解析のためのShiny-phyloseq(21)、データの可視化に特化したMetaviz(22)やVAMPS2(23)などがある。これらのインターフェースは関連する機能を提案しているが、SHAMANの主な特徴は、これらすべてのステップを単一のユーザーフレンドリーなアプリケーションに統合することである。最後に、SHAMANは再現性の問題で特に関心のある完全な分析を登録することができる。
I happy to share my (first last author) publication for our tool SHAMAN (https://t.co/7NOuvkvEr1). Beside being another interface for 16S metagenomic analysis, we also talk about new normalization techniques and reproductibility. https://t.co/XS1F7mpZ3V
— Amine Ghozlane (@xealf8) 2020年8月21日
SHAMANの解析フロー。チュートリアルより。
ShamanはNASCARのアプリケーションとして利用できる。Shamanを選択する。
オーサーらのwebサーバを利用する場合、http://nasqar.abudhabi.nyu.edu にアクセスする。dockerについては1回目の解説を参照。
HOMEの下にチュートリアルがある。チュートリアルは解析ステップごとにタブ区切りになっている。
fastqからスタートするRaw dataモードと、OTU pickingのカウントデータからスタートするモード(Upload your data)がある。ここではfastqから実行する。Raw dataを選択。
メタアンプリコンの種類を選択する。ここでは16Sのペアエンドを選択。primer選択無し。
ホスト配列がある場合は選択する(除去される)。
例えばヒトやphixなど。
More workflow optionsにチェックを付けると
詳細なパラメータを指定できる。
fastqをアップロードする。
fadtqのペアを認識させるため、ファイル名のsuffix部分を指定する。ここでは ファイル名を見て_R1と_R2と記載してMatchをクリック。
間違ってなければペアエンドのR1とR2が左右のウィンドウ内に振り分けられる。
check & submitをクリック。以下のウィンドウが表示されればサブミットに成功している。
右上にプログレスが表示される。小さなデータでも場合がかかる場合がある。
発行されるRun keyで検索することで進捗度合いを確認できるようになっている。
テスト時は1%から進行しなかった。
fastqからランするといつまでたってもジョブが終わらなかった(最新のdocker image使用)。ここではexampleのOTUカウントデータを使う。これはZymoモックコミュニティというmock communityのメタ16Sで、系統的に離れた8つの細菌株(3つがグラム陰性、5つがグラム陽性)のシークエンシングデータである。ゲノムDNAを等モルの割合で混合し、増幅サイクル数(25サイクルおよび30サイクル)とフローセルに装填したDNA量(0.5ngおよび1ng)で変化をつけている。
Upload your dataからexampleを選択。
読み込まれた。1ng.25cycle、1ng.30cycle、0.5ng.25cycle、0.5ng.30cycleの4条件となっている。Replicatesはそれぞれ3つずつある。
Download .zip fileから結果は入手できる。出力されるのは、アノテーションのための参照として使用された各データベースのBIOMファイル、Newick形式の系統樹、および同定されたすべてのOTUのFASTA形式の配列となる。
さらに統計解析が実行できるようになっている。
Run statistical analysis
利用するには、各サンプルについて1つまたは複数の説明変数に関連付ける "ターゲット "ファイルをサブミットする必要がある。これらの説明変数は、ターゲットファイルから自動的に検出される。
ターゲットファイルから抽出された説明変数と交互作用(interactions、複数の変数による複合効果)を指定後、taxonommic rankを指定、ランする。ランすると正規化された値が取り出される。
複雑な実験でどの交互作用が主要因か調べる場合は、交互作用の組み合わせを変えてランを繰り返すことになる(数秒で変換結果は返ってくる)。
optionを展開すれば統計モデルを変更可能。
対比(Contrasts)に関する項目もある。
次のDiagnotic plotsでは、正規化された結果について、ユーザーが指定した説明変数をプロットに紐づけて、実験内で変動の主要な要因となった因子を視覚化して調べたりできるようになっている。
様々な形式のプロットに対応している。
PCA
関心のある説明変数としてDNA量とサイクル数を指定。色は変数と対応している。
Visualiozatiion (ここではspecies rank)
Bar plot
Heatmap
Box plot
Tree
Network
Diversity (alpha、simpson、Invsimpson)
Rarefraction
一部の視覚化機能は動作しなかった。
引用
SHAMAN: a user-friendly website for metataxonomic analysis from raw reads to statistical analysis
Stevenn Volant , Pierre Lechat , Perrine Woringer, Laurence Motreff, Pascal Campagne, Christophe Malabat , Sean Kennedy, Amine Ghozlane
BMC Bioinformatics. 2020 Aug 10;21(1):345
SHAMAN: bin-free randomization, normalization and screening of Hi-C matrices
Netta Mendelson Cohen, Pedro Olivares-Chauvet, Yaniv Lubling, Yael Baran, Aviezer Lifshitz, Michael Hoichman, Amos Tanay
bioRxiv, Posted September 12, 2017