macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムデータセットのカバレッジを推定する Nonpareil 3

2021 4/27 誤字修正

 

2018年のNonpareil3の論文より

 メタゲノムデータセットに基づく微生物群集の多様性の推定は、不十分な網羅性やリファレンスデータベースに依存する多様性の推定に起因するバイアスの影響を受け、その程度は未知数であることが多い。例えば、リファレンスデータベースの完全性は、これまでにサンプリングされた現存する多様性に依存するため、一概に見積もることはできない。この現存する多様性は、ヒトの腸のようないくつかの生息地を除いて、依然として著しくサンプル数が少ない。さらに、メタゲノムデータセットによる微生物群集のカバレッジの度合いを推定することは、大規模なデータセットでは非常に時間がかかり、カバレッジの値は異なるシーケンス技術で得られたデータセット間で直接比較できない可能性がある。ここでは、メタゲノムデータセットカバレッジを推定するためのデータベースに依存しないツールであるNonpareilを、数百コアのハイパフォーマンスコンピューティングに拡張し、さらに、オリジナルのアラインメントベースのバージョンと同等の感度を持ちながら、約300倍の速さでk-merベースの推定を行う。さらに、Nonpareil曲線から直接得られる配列の多様性の指標(Nd)を提案する。これは従来の指標で評価されるアルファの多様性とよく相関している。この指標をさまざまな実験で使用し、16S rRNA遺伝子プロファイルで推定したシャノン指数との相関を示し、さらにNdは、シャノン指数では捉えられない海洋サンプルの季節的パターンや、異なる生息地における微生物群集の多様性の大きさのより正確なランキングを明らかにすることを示した。したがって、Nonpareil 3と呼ばれるNonpareilの新バージョンは、マイクロバイオームのメタゲノム解析のためのツールボックスを前進させるものである。

重要性

 メタゲノムデータセットが提供するカバレッジの推定、すなわち、微生物群集のどの部分がDNAシーケンスによってサンプリングされたかを推定することは、サンプルに存在する配列の多様性をしっかりと評価することを目的とした、培養に依存しないゲノム研究の必須の最初のステップである。しかし、多様性を定量的に評価するためには、高度な計算が必要であったり、統計的なアプローチが制限されたりするなど、技術的な制約があるため、カバレッジの評価は依然として困難である。ここでは、これらの制限を回避する新しいバイオインフォマティクスアルゴリズムであるNonpareil 3を紹介する。このアルゴリズムは、使用するシーケンスプラットフォームに依存せず、臨床や環境における培養に依存しない研究を促進する。さらに、希薄なカバレッジに基づいた配列の多様性の新しい指標を提示し、多様な生態系のコミュニティでその使用を実証した。

 

2014年のNonpareil の論文より

カバレッジのレベルは通常,OTUを特定してカウントし,rarefaction curvesを生成することで評価される(Hughes et al., 2001)。しかし、リボソームRNA遺伝子のように、OTUでリードをクラスタリングできるほど十分に類似した遺伝子を使用する必要があるが、これらの遺伝子は、近縁でありながら異なるOTU間の重要なレベルの生態学的分化を見逃すことが知られている(Konstantinidis and Tiedje, 2007)。そのため,多様性のあるコミュニティに適用でき,アセンブリの品質やリファレンスデータベースの完全性に依存しないメタゲノムデータセットカバレッジを推定する方法が強く求められている。

 

Documentation

https://nonpareil.readthedocs.io/en/latest/index.html

オンライン版

http://enve-omics.ce.gatech.edu/nonpareil/

 

Nonpareil の手法は、特定のシーケンスプロトコルでは系統的な偏りが指摘されているものの、シーケンスリードはほぼランダムであるため、カバレッジの高いデータセットは冗長性が高いという観察に基づいている。この冗長リードを全リードで計算すると法外な計算となるため、Nonpareilはデータセット全体からリードそれぞれベルヌーイ試行でサブセットを生成し、その後、データセット全体でのクエリのサブセットリードそれぞれのマッチ数を計算することで冗長性の値を推定する。

インストール

本体 Github

#bioconda(link)
mamba install -c bioconda nonpareil -y

#Nonpareil R package
install.packages('Nonpareil')

#docker(Biocontainer)
docker pull quay.io/biocontainers/nonpareil
#launch
docker run -i -t quay.io/biocontainers/nonpareil /bin/bash

#ほかのインストール方法はDocumentation参照

> nonpareil

Nonpareil v3.304

DESCRIPTION

Nonpareil uses the redundancy of the reads in metagenomic

datasets to estimate the average coverage and predict the

amount of sequences that will be required to achieve 'nearly

complete coverage'.

 

USAGE

nonpareil -s sequences.fa -T alignment -b output [options]

nonpareil -s sequences.fa -T kmer -f fastq -b output [options]

nonpareil -h

nonpareil -V

 

MANDATORY ARGUMENTS

-s <str> : Path to the (input) file containing the sequences

-T <str> : Nonpareil algorithm, 'kmer' or 'alignment' accepted

 

COMMON OPTIONS

-b <str> : Path to the prefix for all the output files

-f <str> : The format of the sequence. Can be 'fasta' or fastq'

-X <int> : Maximum number of reads to use as query.

By default: 1000 for alignment, 10000 for kmer

-k <int> : kmer length. By default: 24

-n <int> : Number of sub-samples to generate per point.

If it is not a multiple of the number of threads

(-t), it is rounded to the next (upper) multiple.

By default: 1024.

-L <num> : Minimum overlapping percentage of the aligned region

on the largest sequence. The similarity (see -S) is

evaluated for the aligned region only.

By default: 50

-R <int> : Maximum RAM usage in Mib. Ideally this value should

be larger than the sequences to analyze (discarding

non-sequence elements like headers or quality). This

value is approximated. By default 1024.

Maximum value in this version: 4194303

-t <int> : Number of threads. By default: 2

-v <int> : Verbosity level. By default 7

-V : Show version information and exit

-h : Display this message and exit

 

See all supported arguments and additional documentation at

http://nonpareil.readthedocs.org or execute man nonpareil

 

実行方法

1、nonpareil のラン

Nonpareilは、シーケンスエラーが常に5%以下であることを期待している。イルミナのクオリティトリム済みショートリードを指定する。fastqにも対応しているが、fastaに変換して使用することが推奨されている。ペアエンドリードの場合、片方のみ使用する。rリードの類似度を調べるアルゴリズムはk-merの完全一致とアラインメントのどちらかを選ぶ。アルゴリズムとパラメータについてはオンラインのヘルプも参照。

#fasta
nonpareil -s reads.fq -T alignment -f fasta -b outprefix

#fastq (kmer algorithmではfastq)推奨)
nonpareil -s reads.fa -T kmer -f fastq -b outprefix
  • -s <str>   Path to the (input) file containing the sequences
  • -f <str>   The format of the sequence. Can be ‘fasta’ or ‘fastq’.
  • -T <str>  Nonpareil algorithm, 'kmer' or 'alignment' accepted

 

出力

nonpareil -s SRR8075990.fa -T kmer -f fastq -b SRR8075990

f:id:kazumaxneo:20210426000225p:plain

 

.npoファイル: 冗長性サマリー

6 列のタブ区切りのファイル。最初の列は、シーケンシング量(リード数)を示し、残りの列は、与えられたシーケンシング作業量におけるredundancy分布(デフォルトでは1,024)の要約を示している。これら5列は、平均冗長度、標準偏差、四分位1、中央値(四分位2)、四分位3を示す。

f:id:kazumaxneo:20210426000408p:plain

 

npaファイル: 冗長度の値
3列からなるタブ区切りファイル。.npoファイルと同様に冗長性に関する情報が含まれているが、各ポイントでのサマリーだけでなく、レプリケートからのすべての結果を提供している。1列目はシーケンス量(データセットに対する割合)、2列目はreplicatesのID(プロットに制御されたノイズを導入するためにのみ使用される番号)、3列目は推定冗長度の値を示す。

f:id:kazumaxneo:20210426000837p:plain
.npcファイル: メイトの分布
データセットの中で、クエリリードにマッチするリードの数を示す生のリスト。


 .npl ファイル: ログ
Nonpareilの内部処理のredundancyログ。

 

 

2、評価する。

library(Nonpareil)
Nonpareil.curve('SRR8075990-nonpareil.npo')
Nonpareil.set('SRR8075990-nonpareil.npo')

#sample
example(Nonpareil.set);

 

出力

所定のレベルのカバレッジに到達するために必要なシーケンスeffortの予測。実線はフィッティングした関数の曲線を示し、〇プロット(↑の上)はデータセットの実際のサイズを示し、水平の破線は100%と95%のカバレッジを示している。

f:id:kazumaxneo:20210426003004p:plain

複数データプロットする手順はマニュアルのExample参照。

 

引用

Nonpareil 3: Fast Estimation of Metagenomic Coverage and Sequence Diversity
Luis M Rodriguez-R, Santosh Gunturu, James M Tiedje, James R Cole, Konstantinos T Konstantinidis
mSystems. 2018 Apr 10;3(3)


Nonpareil: a redundancy-based approach to assess the level of coverage in metagenomic datasets
Luis M Rodriguez-R, Konstantinos T Konstantinidis

Bioinformatics. 2014 Mar 1;30(5):629-35

 

関連