macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

真菌群集を解析するユーザーフレンドリーなwebサーバー DAnIEL

 

ヒトの体内や体の中には、あらゆる生物界を代表する何兆もの微生物が生息しており、宿主の発生や生理に重要な役割を果たしている。この10年間で、細菌の配列を解析するためのオンラインツールやサーバーが十数種類開発され、パブリックドメインでアクセスできるようになった。しかし、真菌の解析はまだ始まったばかりである。ここでは、ヒトマイクロバイオームの包括的な解析に特化したウェブサーバーを紹介する。(i)生のシーケンスリードをデータテーブルと高規格の図に変換する、(ii)統計解析と機械学習を手動で精査したリレーショナルデータベースに統合する、(iii)ユーザーがアップロードしたデータセットをSequence Read Archiveから一般に入手可能なものと比較する。公開されている2,048件のITSサンプルを用いて、大規模データに対するDAnIELウェブサーバーの有用性を実証し、ヒトの腸、皮膚、鼻咽頭、口腔内の部位間における真菌群集の違いを示した。

 

HPより

ITS(Internal transcribed spacer)とは、真核生物のゲノムにおいて、小サブユニットrRNAをコードする遺伝子と大サブユニットrRNAをコードする遺伝子の間にある領域である。菌類のITS1サブ領域は18S rRNA遺伝子と5.8S rRNA遺伝子の間にあり、ITS2は5.8S rRNA遺伝子と28S rRNA遺伝子の間にある。この配列は、特に近縁種間での変異度が高い。また、ほとんどの真菌クレードを容易に増幅できるユニバーサルプライマーが存在する。同一ゲノム上に複数のITSコピーが存在することが多いが、これらのコピーは、不均等なクロスオーバーイベントを経て、協調的に進化する傾向がある。これにより、特定のゲノム内での配列の均一性が保たれている。これらの理由により、ITS領域は分類学において広く使用されている。

メタゲノミクスの分野では、ほとんどのプロジェクトで、2つのサブ領域のうち1つだけがシークエンスされている。PCR増幅のバイアスのため、異なるサブ領域を使用したプロジェクト間でアバンダンスレベルを比較することは推奨されない。ITS以外にも、翻訳伸長因子1α(TEF1α)などのマーカー配列が分類学的プロファイリングに使用されている。これらのマーカーは本ウェブサーバではカバーしていない。しかし、種レベルまでの正確な分類学アノテーションのためには、複数のマーカー遺伝子の配列が必要な場合もある。これは対象となるクレードにもよる。

 

Tutorial:糞便や環境サンプル中の様々な真菌群集の解析

https://sbi.hki-jena.de/daniel/latest/?project_id=example&tab=tutorial

 

真菌の相互作用に関するデータベース(オーサーらが手動で作成。疾患、細菌、免疫系、サイトカインについて、原著論文へのリンクをつけて、これらの論文で報告されたすべての相互作用を表示)

https://sbi.hki-jena.de/daniel/latest/?project_id=9b2e747a-b18f-4211-b5e8-04ec896e53d4&tab=interactions

 

NRZMykデータベースから、真菌感染が疑われる臨床分離株を抽出したデータベース

https://sbi.hki-jena.de/daniel/latest/?project_id=9b2e747a-b18f-4211-b5e8-04ec896e53d4&tab=infections

 

Legal

個人データ保護について(データをアップする前に確認しておく)

https://sbi.hki-jena.de/daniel/latest/?project_id=9b2e747a-b18f-4211-b5e8-04ec896e53d4&tab=legal

 

論文中ではヒトマイクロバイオームを例にしていますが、メタデータが管理されていれば、環境サンプルにも適用できます(projectsタブ参照)。

 

 

 

Tutorialで詳しく説明されているので、流れだけ簡単に紹介します。

 

webサービス

https://sbi.hki-jena.de/daniel/latest/にアクセスする。

f:id:kazumaxneo:20210420000609p:plain

新しくプロジェクトを開始するにはStart projectをクリックする。

 

raw readsとそのメタデータExcelまたはCSV)をアップロードする。fastqは {sample_id}_{1|2}.{file extension}という命名則に従う必要がある。sample_idはCSVファイルの”sample_id”カラムと同じ名前でペアエンドの_1か_2、拡張子はfastq, fq, fq.gz, fastq.gzに対応している。例えばCSVファイルの”sample_id”カラムがS1なら、S1_1.raw.fq.gzとS1_2.raw.fq.gzを用意する。バーコード付きのmixed.fastqにも対応している(下のexample data参照)。

f:id:kazumaxneo:20210420004103p:plain

SRAのデータを直接プロジェクトに追加することもできます。

 

既存のプロジェクトを追加することもできますが、かなり重いようです。注意して下さい。

f:id:kazumaxneo:20210420004152p:plain

 

ここではテストデータを使う(start a new projectのexample raw dataボタンからダウンロードできる)。

ダウンロードして解凍した。

f:id:kazumaxneo:20210423122139p:plain

 

samples.csv

f:id:kazumaxneo:20210423122408p:plain

ユーザーのfastq5個とSRAのデータ20個となっている。S4とS5は1つのfastqに含まれる混合サンプルになっている。その場合は”sample_id”カラムはS4とS5にして、”barcode_seq”カラムにバーコード配列を、”barcode_file”カラムにfastqファイルのsample_id部分の名前(ここではmuxed_S4_S5)を記入する。

 

fastqを指定してアップロードする。

f:id:kazumaxneo:20210423123903p:plain

 

CSVファイルが読み取られてAttribute(属性) が視覚化される。とても分かりやすい。

f:id:kazumaxneo:20210423123850p:plain

こちらは、北極圏の土壌から採取された、どのような菌が寒冷地で生育できるのかを調べたプロジェクトのAttribute視覚化。

https://sbi.hki-jena.de/daniel/latest/?project_id=9b2e747a-b18f-4211-b5e8-04ec896e53d4&tab=projects

f:id:kazumaxneo:20210423125509p:plain

 

属性に問題がなければ、左のstartボタンをクリックする。

f:id:kazumaxneo:20210423123844p:plain

 

startの画面では、開始ボタンを押す前に各ステップのパラメータを確認する。

f:id:kazumaxneo:20210423124345p:plain

f:id:kazumaxneo:20210423124446p:plain

 

f:id:kazumaxneo:20210423124448p:plain

f:id:kazumaxneo:20210423124457p:plain

 

f:id:kazumaxneo:20210423124544p:plain

 

f:id:kazumaxneo:20210423124545p:plain

 

メールアドレスを記載してStart pipelineをクリックする。

f:id:kazumaxneo:20210423125040p:plain

  

f:id:kazumaxneo:20210423130604p:plain

 

試した時は正常にランが終了しなかった。出力についてはexample resultを確認して下さい。

https://sbi.hki-jena.de/daniel/latest/?project_id=example&tab=qc

 

引用

DAnIEL: A User-Friendly Web Server for Fungal ITS Amplicon Sequencing Data
l Loos, Lu Zhang, Christine Beemelmanns, Oliver Kurzai, Gianni Panagiotou

bioRxiv, Posted April 12, 2021