macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

メタゲノムのtaxonomic assignmentと定量を行う CCMetagen

 

 環境試料および宿主関連試料(メタゲノミクスおよびメタトランスクリプトミクス)のDNAおよびRNAのハイスループットシークエンシングは、どの生物が試料中に存在するかを評価するための強力なツールである。Taxonomy同定ソフトウェアは通常、個々のショートリードを時には完全なゲノムのみを有する分類群を含むリファレンスデータベースにアラインメントする。異なる種が同一の配列領域を共有でき、完全なゲノム配列がごく一部の生物にしか利用できないことを考えると、これは困難な課題である。シーケンシングリードをリファレンスデータベースにマッピングするために最近開発されたアプローチは、より良い情報を得たアラインメントを作り出すために、データベースに対する全てのハイスコアリードマッピングを重み付けすることを含む。この新しい概念をリードマッピングに使用して、CCMetagenという非常に正確なメタゲノム分類パイプラインを開発した。CCMetagenをKraken2、CentrifugeおよびKrakenUniqと比較すると、シミュレーションの真菌および細菌メタゲノムの種レベルの分類で精度が3〜1580倍、F1スコアが2〜922倍向上していた。これは他の一般的なメタゲノム分類器よりも大幅に優れている。 CCMetagenは、全NCBIヌクレオチドコレクション(nt)をリファレンスとして使用するのに十分な速さとメモリー効率を持ち、生物界のあらゆる不完全なゲノム配列データを持つ種の評価を可能にする。本パイプラインは、真核生物と原核生物の両方を含む2つの生物学的データセットのマイクロバイオームの包括的な概要を効率的に作り出す。 CCMetagenはユーザーフレンドリーであり、結果は微生物群集分析ソフトウェアに容易に統合できる。

 

 

ローカル環境へのインストール

依存

  • CCMetagen requires Python 3.6 and Python modules pandas (>0.23) and ETE3.
conda create --name ccmetagen python=3.6 pandas numpy
source activate ccmetagen

sudo apt-get install libz-dev
git clone https://bitbucket.org/genomicepidemiology/kma.git
cd kma && make && cd ..

wget https://github.com/marbl/Krona/releases/download/v2.7/KronaTools-2.7.tar
tar xvf KronaTools-2.7.tar
cd KronaTools-2.7
./install.pl --prefix .

本体 Github

git clone https://github.com/vrmarcelino/CCMetagen
cd CCMetagen/

 

データベースの準備

Download the indexed (ready-to-go) nt database either here or here.

((96GB zipped file, 268GB uncompressed))

または自分でリファレンスを準備する。 

 

実行方法

1、KMAを使ってリードをデータベースにマッピングする。

ペアエンド

kma -ipe $SAMPLE_R1 $SAMPLE_R2 -o sample_out_kma -t_db database -t 20 -1t1 -mem_mode -and -apm f

シングルエンド 

kma -ipe $SAMPLE_R1 $SAMPLE_R2 -o sample_out_kma -t_db database -t 20 -1t1 -mem_mode -and -apm f

 

2、CCMetagenのラン

CCMetagen.py -i $sample_out_kma.res -o results 

CCMetagenの結果のCSVファイルが出力される。kronaを使ったインタラクティブなグラフも出力される。

  

web版も用意されている。

https://cge.cbs.dtu.dk/services/ccmetagen/にアクセスする。

f:id:kazumaxneo:20190518175113p:plain

fastq(gzip圧縮にも対応) をuploadする。メールアドレスを記載しておけばラン終了後にメールが届く(*1)。

 

web版instructions

https://cge.cbs.dtu.dk/services/CCMetagen-1.0/instructions.php

引用

CCMetagen: comprehensive and accurate identification of eukaryotes and prokaryotes in metagenomic data

Vanessa Rossetto Marcelino, Philip T.L.C. Clausen, Jan Buchman, Michelle Wille, Jonathan R Iredell, Wieland Meyer, Ole Lund, Tania Sorrell, Edward C Holmes

bioRxiv preprint first posted online May. 17, 2019

 

*1

混雑度合いによって解析にかかる時間は変わります。