自動でコンタミネーションを除く ProDeGe - macでインフォマティクス

　最近の技術的進歩によりハイスループット配列決定シーケンス解析が可能になり、難培養微生物のsingle amplified genomes（SAG; Rinke et al。、2013 ; Swan et al。、2013 ）やメタゲノムのアセンブリおよびbinningが可能になった（GMGs; Cuvelierら、2010 ; Sharon and Banfield、2013 ）。コミュニティの構造と機能を評価する上でのこれらの方法の重要性は疑いなく確立されている（ Kalisky and Quake、2011 ）。シングルセルのMultiple Displacement Amplification （MDA）およびシークエンシングは、希少かつ新規のphylaを捕まえる上で非常に成功していて、phylogenetic anchoringのために貴重なリファレンスを提供している。しかしながら、MDAおよびシーケンス解析を高スループットで行う努力は、環境DNAのコンタミネーション、またMDAのプロセスかシーケンスプロセス中に導入されるコンタミネーションによって大きく損なわれている（ Woykeら、2011 ; Engel et al、2014 ; Field et al、2014 ）。同様に、メタゲノムのビニングおよびアセンブリは、使用される方法に応じてさまざまな誤差およびアーチファクトをもたらすことが多い（ Nielsen et al、2014 ）。培養され単離されたゲノムであっても、他種の混入よって免疫不全を示す（ Parks et al pubmed、Mukherjee et al pubmed）（checkM紹介）。これらのタイプのゲノムシーケンシングが急速に増加するにつれて、汚染配列は参照配列として公的データベースへと進化しつつある。したがって、すべての微生物ゲノムの品質基準を確立するためには、品質管理と汚染除去のための標準化された自動化されたプロトコルを定義することが非常に重要である。

　単細胞およびメタゲノムビンにおけるゲノム配列のコンタミネーション除去および品質管理のための現在の手順は大変手作業であり、生物学者によって実施される場合、hours/megabase を消費する可能性がある。監督型のコンタミネーション除去手法として、典型的には、リボソーム RNA配列およびタンパク質コード遺伝子の相同性に基づく検査、ならびにk-mer頻度プロットおよびグアニン - シトシン含量の視覚分析が含まれる（ Clingenpeel、2015 ）。手作業によるコンタミネーション除去は、SmashCell（ Harrington et al、2010 ）のソフトウェアによっても可能で、自己組織化マップと対応するUマトリックスからの汚染配列を視覚的に識別するためのツールが含まれている。もう一つの既存のソフトウェアツールであるDeconSeq（ Schmieder and Edwards、2011 ）は、汚染シーケンスを自動的に除去するが、コンタミネーションデータベースは入力が必要となる。前者は自動化が不十分であり、後者はコンタミネーション配列の事前知識が必要であり、高スループットな汚染除去の非実用的にしている。

　この論文では、ゲノムのコンタミネーション除去のための最初の完全自動化計算プロトコルであるProDeGeを紹介する。 ProDeGeは、標的ドラフトゲノムからコンタミネーション配列を分離するための相同性ベースおよび配列合成ベースの手法の組み合わせを使用する。コンタミネーション配列の少なくとも84％を廃棄するように予め較正されており、一方でターゲット配列の中央値の84％は保持する。スタンドアロンソフトウェアはhttp://prodege.jgi-psf.org//downloads/srcから自由に入手でき、Perl、R（R Core Team、2014 ）、Prodigal（ Hyatt et al、 2010 ）とNCBI Blast（ Camacho et al、2009 ）がインストールされrる。

　コンタミネーション除去を行うデータのアセンブリおよび対応するNCBI分類データは、ProDeGeへの必須入力である（論文図1a ワークフロー）。真核生物のコンタミネーションは、NCBIのヌクレオチドデータベースの真核生物サブセットをリファレンスとして使用して除去される。原核生物のコンタミネーションの検出には、Integrated Microbial Genomes（IMG; Markowitz et al、2014 ）システム内の高品質ゲノムのセットのキュレーションされたデータベースが使われる。それからcontigsにアノテーションがつけられる。シーケンシング、アセンブリ、アノテーション品質の低さが原因で汚染除去プロセスに悪影響を与えないようにする。上記データベースの配列とのヌクレオチドレベルの相同性に基づいてターゲット生物に属すると判定されたコンティグは、「クリーン」と定義され、他の生物にアラインメントされたコンティグは「コンタミナント」と定義される。アラインメントに基づいて起源を判定することができないコンティグは、「未決定」と分類される。クリーンまたはコンタミナントと判定されたコンティグは、次の分析のキャリブレーションに使われ、5-merスペクトルの主成分分析（PCA）を使用して先の段階で未決定に分類されたコンティグを「クリーン」または「コンタミナント」として分類し直す。このパラメータは、ユーザーが指定することもできる。データセットが"門"レベルよりも深い分類体系を持たない場合、または配列アライメントを用いて単一の確実な分類ビンを検出することができない場合、全体的な分類をより正確にするために9-merベースのビニングのみが使用される（以下略）。

ProDeGeは、BLASTによるデータベース検索とPCA解析の２つの手法を合わせて配列を分類する。

ワークフロー。公式より転載。

IMG/M（参考）

インストール

cent OS6に導入した。

依存

Blast+ 2.2.28
Perl 5.16.0 (with modules Bio::SeqIO and Bio::Perl)
Prodigal 2.50 - R 3.0.1
Bioperl

本体は公式サイトからダウンロードする。JGIのツールになる。

wget http://1ofdmq2n8tc36m6i46scovo2e-wpengine.netdna-ssl.com/wp-content/uploads/2018/05/prodege-2.3.tar_.gz
tar -xvzf prodege-2.3.tar_.gz
cd prodege-2.3/
sh prodege_install.sh -i <INSTALL DIRECTORY> #データベースもダウンロードされる。数十GBある。

READMEより。

RUNNING

prodege.sh <configuration file>

CONFIGURATION

The program takes as input a configuration file. Below are the fields that should be in the file:

TAXON_DISPLAY_NAME= # This field is not required, put quotes around if spaces

TAXON_DOMAIN= # Put quotes around taxon var assignments

TAXON_PHYLUM= # because some have spaces in them

TAXON_CLASS= # like "Bacteroidetes/Chlorobi group"

TAXON_ORDER= # TAXON_X can be blank

TAXON_FAMILY=

TAXON_GENUS=

INSTALL_LOCATION= # Do not set this if you are using 'module load prodege'

WORKING_DIR= # Prodege will create a folder $JOB_NAME in $WORKING_DIR

IN_FASTA= # Full path of input fna

JOB_NAME= # Clean fasta file will be: ${WORKING_DIR}/${JOB_NAME}/${JOB_NAME}_output_clean.fna

RUN_GENECALL=<0 to skip, 1 to run>

RUN_BLAST=<0 to skip, 1 to run>

RUN_CLASSIFY=<0 to skip, 1 to run>

RUN_ACCURACY=<0 to skip, 1 to run> #contigs must have "clean" or "contam" in their fasta's contig name

BLAST_THREADS= #Default is 8

KMER_CUTOFF= #Prodege is precalibrated with a cutoff, this field is optional

EXAMPLE

Two examples are included in the Examples folder. The config.cfg needs to be updated with the install location and

the working directory. To run the example type:

prodege.sh <config file>

ラン

ランにはconfigファイルが必要になる。インストールディレクトリ、作業ディレクトリのパスを編集してから実行する。テストデータを解析するなら、Examples/で以下のように打つ。

cd Examples/
./../bin/prodege.sh ex1_config.cfg

ACDC

checkM

引用

ProDeGe: a computational protocol for fully automated decontamination of genomes

Kristin Tennessen, Evan Andersen, Scott Clingenpeel, Christian Rinke, Derek S Lundberg, James Han, Jeff L Dangl, Natalia Ivanova, Tanja Woyke, Nikos Kyrpides, and Amrita Pati

ISME J. 2016 Jan; 10(1): 269–272.

Automating Microbial Genome Sequence Decontamination

https://jgi.doe.gov/automating-microbial-genome-sequence-decontamination/

Biostars

https://www.biostars.org/p/223858/