macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

メタゲノム分析ツール Pavian

 メタゲノミクスシーケンスは、感染症における病原体の検出に革命を起こす可能性を秘めている。現在、ほとんどの感染症の診断は、時間がかかり労働集約的な伝統的な文化に基づく方法で行われ、オフターゲット病原体を逃す可能性がある。いくつかの最近の研究では、標準的な方法が決定的ではない場合でも(例えば、Wilson et al、2014; Salzberg et al、2015)、患者サンプルのDNAおよびRNAシーケンスが臨床医に正しい病原種を同定する方法を示すことが示された。一般的なワークフローは、新鮮なサンプルか、保存された患者サンプルからDNAまたはRNAを抽出してシーケンシングライブラリを作成し、その後数百万または数千万のリードを生成する。様々なバイオインフォマティクスツールを利用して、リードを分類できる。すなわち、種を同定(例えば、Lindgreen et al、2016)するために各リードを標識することができる(一部略)。

ヒトDNA、非病原性DNA、および少量の病原性DNAの複雑なmixtureであるサンプル中から病原体の証拠を探す場合、データのインタラクティブな探索および視覚化は、乾草の針(needle in a haystack)を見つけるのに役立つ。
 Pavianは、Kraken(Wood and Salzberg、2014)(紹介)、Centrifuge(Kim et al、2016)(紹介)およびMetaPhlAn(Truong et al、2015)(紹介)分類ツールのメタゲノミクス結果を分析するための新しいインターフェースを提供する。 Shiny-phyloseq(McMurdie and Holmes、2015)やSeed(Beck et al、2015)のようなインタラクティブな微生物分析のための強力なツールが利用可能であるが、それらは生態学的分析と地域分析に向いている。他方、病原体検出のための特殊化したパイプライン(例えば、Naccache et al、2014、Byrd et al(2014))は、データを探索するためのインタラクティブな方法を提供していない。分類と視覚化を統合したTaxonomer(Flygare et al、2016)(紹介)と比較して、Pavianはいくつかのサンプルの視覚化と比較のための追加の方法を提供する。 Pavianは、研究者が単一のサンプルを解剖して、複数のサンプルにわたる識別情報を比較することも可能にする。このインタフェースは、メタゲノミクスシーケンシング実験の大規模な、しばしば複雑な結果の解釈を簡素化することを目的としている。

 

2016年にPreprintが投稿されている。

 

インストール

mac os 10.13 のR3.4でテストした。

依存

  • Rbamtools
source("https://bioconductor.org/biocLite.R") 
biocLite("Rsamtools")

本体 Github

GitHub - fbreitwieser/pavian: 🌈 Interactive analysis of metagenomics data

#R内で
> options(repos = c(CRAN = "http://cran.rstudio.com"))
> if (!require(remotes)) { install.packages("remotes") }
> remotes::install_github("fbreitwieser/pavian")

 

ラン

#R内で
> pavian::runApp(port=5000)

f:id:kazumaxneo:20180530203611j:plain

 

 krakenで解析すると、最終的に以下のコマンドで、生物種ごとの存在量を出力できる(リンク)。

kraken-report --db database output > summary.txt

 このsummaryファイルを上記のページで指定する。出力後、saveボタンをクリックする。kraken以外に、Centrifuge(リンク、kaiju(リンク)の出力も利用できる。ただし、kraken以外のレポートを使う場合、centrifuge-kreportスクリプトリンク)を使って変換する必要がある。

 

 ./centrifuge-kreport

 ./centrifuge-kreport

 

Usage: centrifuge-kreport -x <index name> OPTIONS <centrifuge output file(s)>

 

centrifuge-kreport creates Kraken-style reports from centrifuge out files.

 

Options:

    -x INDEX            (REQUIRED) Centrifuge index

 

    --no-lca             Do not report the LCA of multiple assignments, but report count fractions at the taxa.

    --show-zeros         Show clades that have zero reads, too

    --is-count-table     The format of the file is 'taxID<tab>COUNT' instead of the standard

                         Centrifuge output format

 

    --min-score SCORE    Require a minimum score for reads to be counted

    --min-length LENGTH  Require a minimum alignment length to the read

 

pavianの説明に戻る。

Results overview

f:id:kazumaxneo:20180530203920j:plain

 

系統樹。線の太さでabundanceを表現している。枝をクリックすると詳細が表示される。表形式に切り替えることもできる。

f:id:kazumaxneo:20180530204129j:plain

 

Comparison。階級ごとに存在量を表示できる。門(phylum)レベルでの存在量。存在量の分布からSDとZ scoreを出して、統計的に有意な差があるものに色がつく。表示項目も細かく変更可能になっている。

f:id:kazumaxneo:20180530205318j:plain

 

ほかにリードのリファレンスへのマッピング状況を俯瞰するビューア機能も持つ。

f:id:kazumaxneo:20180530205847j:plain

 

 

引用

Pavian: Interactive analysis of metagenomics data for microbiomics and pathogen identification

Florian P. Breitwieser, Steven L. Salzberg

bioRxiv preprint first posted online Oct. 31, 2016