メタゲノムデータ間の類似性を計算し可視化する metafast

最近、コンピュータ生命科学者たちは、利用可能なショットガンメタゲノミックデータセットの量が驚異的に増加するのを目の当たりにしている。データ分析の次元性を低下させるという課題は、メタゲノムの統計分析の第一の要求である。これには、分類学的および機能的プロファイリング、　リッチさおよび類似性の評価が含まれる。ハイスループットシークエンシングの技術的進歩とコスト削減は、以前に未踏の生態学的ニッチから微生物を調べることを可能にする。前例のない方法でディテールの程度が増加した。最初のメタゲノム研究（Venter et al、2004）以来、平均カバレッジ深度は数桁増加した。単離した微生物の研究から得られた膨大なゲノムデータは、基準に基づくアプローチを開発するための基礎として役立った。続いて、参照ゲノム（例えば、参照ゲノム）との各リードの直接的アライメントよりも巧妙な技術に基づくこのような方法のブームがあった。 Kraken（Wood and Salzberg、2014）（紹介）、CLARK（Ounitら、2015）、FOCUS（Silvaら、2014）、MetaPhlAn2（Truongら、2015）（紹介）。しかし、参照に基づく方法の実際の課題の主なものは、未培養細菌の大部分を含む未知のニッチ共同体になる。参考となる微生物およびウイルスの多数のクレードの代表的なゲノムが欠如している。この問題は、何十年にもわたって徹底的に研究された環境であっても重大なものである。

　急速に蓄積されるデータ量に対処するために開発されたメタゲノム類似性を測定するための手法の1つは、adaptive subsampling（Shamsaddini et al、2014）に基づく(pubmed)。もう1つは、利用可能な参照ゲノムセットの希薄さのために、メタゲノム研究者にとって魅力的であるようであるアラインメントフリーアプローチである。そのような方法は、組成に基づく方法（k-merスペクトル分析（Chatterji et al、2008; Dubinkina et al、2016; Silva et al、2014; Wu and Ye、2011; Wu et al、2016 、Vinga and Almeida、2003）、ニューラルネットワーク（Rasheed and Rangwala、2012）、マルコフモデル（Song et al、2014））がある。しかし、これらの方法にはいくつかの制限がある。メタゲノムの2つ以上のグループ間に差異のある豊富な特徴がこの方法で隠されるか、またはほとんど情報を提供しない。

　類似性を評価するための別のアイデアは、メタゲノムの de novo assembly とそれに続くコンティグの分析（カバレッジ深度に基づく分類と存在量の差の分析）である。しかしながら、このアセンブリは、細菌種の豊富さおよび著しい種内ゲノム変動のために複雑である。これらの問題に対処するためのメタゲノムアセンブリを目的とした特別なアルゴリズムが開発されている（Boisvert et al、2012; Namiki et al、2012; Peng et al、2011; Treangen et al、2013）。特に、対形成類似性（crAss）を推定するために、メタゲノムリードの複数組み合わせたアセンブリが提案された（Dutilh et al、2012）。しかし、リードからコンティグへの完全なアセンブリは、特にpublicに入手可能なメタゲノムデータの急速な増加のために、計算上および記憶上の難度がある。

　著書らは単純化されたメタゲノム・デノボ・アセンブリに基づき、メタゲノムのde Bruijn graphの適応的セグメンテーションを使用して、メタゲノムをコンパクトに表現するためのMetaFastアルゴリズムを開発した。これは、任意の環境からのショットガンメタゲノムを、簡素化されたコンポーネントからなる修正されたDe Bruijnグラフとして表現することを可能にするアプローチである。著者らの方法は、k-merスペクトル分析とアセンブリとの間にあり、これらの2つのアライメントフリーアプローチの最高のものである：すなわち前者の速度と後者の精度のバランス。複数のメタゲノムを入力として、類似性マトリックスを出力する。このアルゴリズムで保存されたメタゲノム成分の次元構造は、微生物の固有の亜種レベルの多様性を反映している。この方法は、計算上効率的であり、特に新規な環境ニッチからのメタゲノムの分析に有望である。MetaFastのパフォーマンスをいくつかの分類学的プロファイラ（Kraken、CLARK、FOCUS、MetaPhlAn2）、クロスアセンブリベースのアルゴリズムcrAssと比較し、シミュレートされたデータと腸内マイクロバイオームと、リアルデータのNew Yorkの地下鉄と湖沼のウイルスメタゲノムで比較した。比較結果は、MetaFastが非常に効率的であり、結果が既存の方法と一致していることを示した。

以下のようなフローを取っている（Githubより）。

Assembling short genomic sequences from reads for every metagenome separately (basing on de Bruijn graph).
Constructing one combined de Bruijn graph for all assembled sequences, then searching for connected components in it.
Calculating a characteristic vector for every metagenome with a length equal to the number of connected components.
Cross-comparing metagenomes by calculating the Bray-Curtis dissimilarity matrix based on characteristic vectors.

wiki

https://github.com/ctlab/metafast/wiki

インストール

依存

JRE 1.6 or higher

本体　Github

https://github.com/ctlab/metafast#installation

git clone https://github.com/ctlab/metafast.git 
cd metafast 
ant 
./out/metafast.sh --version

$ ./out/metafast.sh --version

Fast metagenome analysis toolkit, version 0.1.2 (revision 0863958, 01-Apr-2018)

またはGithubのリリース（リンク）から実行ファイル metafast.shをダウンロードして実行権をつける (chmod u+x)。

$ /Users/user/local/metafast/out/metafast.sh

Fast metagenome analysis toolkit, version 0.1.2 (revision 0863958, 01-Apr-2018)

Usage: metafast [<Launch options>] [<Input parameters>]

Tool: matrix-builder

Description: Builds the distance matrix for input sequences

Input parameters (only important):

-k, --k <arg> k-mer size (in nucleotides, maximum 31 due to realization details) (optional, default: 31)

-i, --reads <args> list of reads files from single environment. FASTQ, FASTA (MANDATORY)

-b, --maximal-bad-frequency <arg> maximal frequency for a k-mer to be assumed erroneous (optional, default: 1)

-l, --min-seq-len <arg> minimal sequence length to be added to a component (in nucleotides) (optional, default: 100)

-b1, --min-component-size <arg> minimum component size in component-cutter (in k-mers) (optional, default: 1000)

-b2, --max-component-size <arg> maximum component size in component-cutter (in k-mers) (optional, default: 10000)

-wr, --without-renumbering don't renumber samples in the heatmap (optional)

Launch options (only important):

-m, --memory <arg> memory to use (for example: 1500M, 4G, etc.) (optional, default: 90% of free memory (currently 59.2 Gb))

-w, --work-dir <arg> working directory (optional, default: workDir)

-c, --continue continue the previous run from last succeed stage, saved in working directory (optional)

-h, --help print short help message (optional)

To see all parameters and options add --help-all.

To see full documentation visit https://github.com/ctlab/metafast/wiki

解析に必要なハードウエアのスペック

RAM: metafast requires 2-2.5 times more memory than maximum size of uncompressed FASTQ file to be processed.
Hard disk space: metafast requires 25-30% of total size of processed uncompressed FASTQ files.

実行方法

GithubのREADME（トップページ）に載っているテストデータ（ meta_test_1.fa, meta_test_2.fa、meta_test_3.fa ）をダウンロードする。

metafast.sh -i meta_test_1.fa meta_test_2.fa meta_test_3.fa

-i List of reads files from single environment. FASTQ, BINQ, FASTA files are acceptable, gzip- and bzip2-compressed files are allowed too. Files can be set by bash regexp, for example -i dir/*.fastq or -i `cat filelist.txt`.
-k K-mer size (in nucleotides, maximum 31 due to realization details). The default value is 31 nucleotide.
-l Minimum sequence length to be added to a component (in nucleotides). The default value is 100 nucleotides.
-p Available processors. By default metafast uses all available processors.
-v Enable debug output.