macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムのraw fastqから高速なtaxonomy assignmentを行う FOCUS

 

 微生物は他のどの細胞生物よりも豊富であり(Whitman、Coleman&Wiebe、1998年)、どの生物が存在し、それらが何をしているのかを理解することが重要である(Handelsman、2004)。多くの環境では、微生物群集の大多数は培養できず、メタゲノムは未培養のゲノムを直接探索し、それらのDNAのみを用いて微生物群集の多様性を理解するための強力なツールである(Sharon&Banfield、2013)。

 微生物群集を理解することは、生物学の多くの分野で重要である。例えば、メタゲノムは、海洋動物(Trindade-Silva et al、2012)または病状(Belda-Ferre et al、2012)に関連する微生物の分類学的および機能的シグネチャを区別することができる。大量のシーケンシング、リード長の短さ、およびシーケンシングエラーは、メタゲノムに存在する生物の多様性を同定することを困難にしている(Mande、Mohammed&Ghosh、2012)。このために多くのプログラムが存在し、それらは相同性または構成に基づいている。

 相同性に基づくプログラムは、通常、BLASTプログラムを使用して(Altschul et al、1997)、大規模データベースの出力における最も良いヒットを識別する。MG-RAST(Meyer et al、2008)では、メタゲノム試料を分類するために、配列を一組のデータベースにアライメントさせる。 MetaPhlAn(Segata et al、2012)およびGenomePeek(K McNair、R Edwards、未発表データ(published in 2015))は、BLAST検索を高速にすることを可能にする、マーカー遺伝子、例えばユニーククレードおよびハウスキーピング遺伝子のみを含む簡約データベースを使用する。 PhymmBL(Brady&Salzberg、2011)は、補間マルコフモデルを用いてBLASTの結果を改善する。 GASiC(Lindner&Renard、2013)は、Bowtie(Langmead et al、2009)とリファレンスゲノムの類似性を用いて、推定された存在量を補正する。 GPUを必要とする高速プログラムであるParallel-Meta(Su、Xu&Ning、2012)は、相同性の結果を改善するためにmegaBLAST(Zhang et al、2000)およびHMM(Hidden Markov Model)を使用している。これらのアプリケーションのほとんどは、シーケンスを個別に分類し、ビンを合計することによって分類プロファイルを生成する。

 一般に、組成ベースのアプローチは、オリゴヌクレオチド頻度を使用する。 Taxy(Meinicke、Aßhauer&Lingner、2011)は、メタゲノム中およびリファレンスゲノム中のオリゴヌクレオチド分布を使用し、そしてメタゲノム中に存在する生物を同定するために混合モデリングを使用し、そしてRAIphy(Nalbantogluら、2011)は、オリゴヌクレオチドおよび相対存在比指数を使用して生物を同定する。 

 メタゲノム全体のk-mer構成を使用してtaxonomy プロファイルを再構築する新しいアプローチを開発した。メタゲノムのk-mer組成をリファレンスデータベースの生物と一致させるために、非負最小二乗法(NNLS)を使用して生物量の最適セットを計算する。未知の配列をクラスター化するためにk-mers​​が以前に使用され(Teeling et al、2004;McHardy et al、2007)、NNLSが遺伝子数の変動に基づいてメタゲノム試料中に存在する属を同定するために使用された。Orr & Borenstein、2013)。ここでは、メタゲノムに存在する分類群を識別するための、超高速で正確な合成ベースのアプローチであるFOCUSでこれら2つのアプローチを組み合わせる。 FOCUSとGASiC、MetaPhlAn、RAIphy、PhymmBL、Taxy、MG-RASTのパフォーマンスを比較した。 

 

 

f:id:kazumaxneo:20190507160451p:plain

Workflow of the FOCUS program. 

 

 

インストール 

本体 Github 

#anaconda環境
conda install -c bioconda -y focus

#pip3
pip3 install metagenomics-focus

focus -h

/# focus -h

usage: focus [-h] -q QUERY -o OUTPUT_DIRECTORY [-k KMER_SIZE]

             [-b ALTERNATE_DIRECTORY] [-p OUTPUT_PREFIX] [-t THREADS]

 

FOCUS: An Agile Profiler for Metagenomic Data

 

optional arguments:

  -h, --help            show this help message and exit

  -q QUERY, --query QUERY

                        Path to directory with FAST(A/Q) files

  -o OUTPUT_DIRECTORY, --output_directory OUTPUT_DIRECTORY

                        Path to output files

  -k KMER_SIZE, --kmer_size KMER_SIZE

                        K-mer size (6 or 7) (Default: 6)

  -b ALTERNATE_DIRECTORY, --alternate_directory ALTERNATE_DIRECTORY

                        Alternate directory for your databases

  -p OUTPUT_PREFIX, --output_prefix OUTPUT_PREFIX

                        Output prefix (Default: output)

  -t THREADS, --threads THREADS

                        Number Threads used in the k-mer counting (Default: 4)

 

example > focus -q samples directory

 

データベースの準備

git clone https://github.com/metageni/FOCUS.git

#データベースdb.zipを解凍しFOCUS/focus_app/に置く。
unzip FOCUS/focus_app/db.zip
mv db FOCUS/focus_app/

 

実行方法

ランの際はfastq/fastaディレクトリと、解凍したdbフォルダを指定する(dbの手前のパスまで指定する)。

focus -q test/ -o output -b FOCUS-master/focus_app/ -t 8
  • -o      Output_dir
  • -b      Alternate directory for your databases
  • -q      Path to directory with FAST(A/Q) files
  • -t       Number Threads used in the k-mer counting (Default: 4)

gzip圧縮したfastqには対応しないことに注意する。また、input_dir/のfastqの拡張子は.fastqにする。

f:id:kazumaxneo:20190508220704p:plain

output_All_levels.xls

f:id:kazumaxneo:20190508220904p:plain

ディレクトリに複数データがある場合、データごとに定量され出力される。ここでは4つのfastqの結果がまとめて出力されている。

 

SUPER-FOCUSも近い内に紹介します。

引用

FOCUS: an alignment-free model to identify organisms in metagenomes using non-negative least squares

Silva GG1, Cuevas DA1, Dutilh BE2, Edwards RA

PeerJ. 2014 Jun 5;2:e425. doi: 10.7717/peerj.425. eCollection 2014.