バクテリア、ウイルス、真菌および寄生生物を含む微生物からの全ゲノムシーケンシング(WGS)データはpublicデータベースで急速に増加しており、アウトブレイク調査(Rasko et a、2011; Eppinger et al、2011; Engelthaler et al、2016)、系統学と血清学を結びつけたり(Sahl et al、2015b)系統学(Keim&Wagner、2009; Engelthaler et al、2014)にも使用されている。 WGSデータは、特に一塩基多型(SNP)に関して、バリアント同定に頻繁に使用される。 SNPは、ゲノム間の進化的変化のステーブルなマーカーを提供している(Foster et al、2009)。正確で信頼性の高いSNP同定には、バージョン管理、ユニットテスト、検証されたツールを使用してSNPをコールし、フィルタリングし、マージするメソッドの実装が必要になる(Olson et al、2015)。
サポートされている入力ファイルの種類は大幅に異なるが、現在、さまざまなWGSデータセットからSNPを特定するさまざまなパイプラインが利用可能になっている。しかし未処理のシーケンシングリードとゲノムアセンブリの両方の分析をサポートするパイプラインはほとんどない。 In silico Genotyper(Sahl et al、2015a)は、主にイルミナプラットフォームのrawシーケンシングリードとゲノムアセンブリ両方からSNPをコールするが、ジョブ管理システムには最適化されておらず、多型のポジションのみをエクスポートする。多くの研究には多型の位置だけで十分であるかもしれないが、monomorphicを含めること は進化速度の計算に重要である。一般的に使用されるSNP解析ソフトウェアの方法はkSNPで、これは3つのpublish(Gardner&Hall、2013; Gardner&Slezak、2010; Gardner et al。、2015)で議論されている。 kSNPは、リファレンスに依存しない定義された長さの全てのkmersを比較してSNPを同定するアプローチである。アルゴリズムの all-versus-all の性質は、大きなRAMフットプリントにつながり、いくつかの計算ネットワーク上の何百もの細菌ゲノムを失速させる可能性がある(Sahl et al、2015a)。最後に、REALPHYは、複数のリファレンスを用いてSNPを同定し、その結果をマージする(Bertels et al、2014)。著者らは、単一のリファレンスにマッピングすることは結果にバイアスを引き起こし、これは、特に多様性のあるリファレンスゲノムにマッピングすることで顕著になると主張している。
特定の入力フォーマットのみをサポートする追加のメソッドも公開されている。 Parsnpは、コアゲノムからSNPを迅速に同定する方法だが、現在はclosely relatedなゲノムアセンブリのみを対象としている(Treangen et al、2014)(Harvest紹介)。 SPANDxはrawリードのみをサポートするメソッドだが、さまざまなジョブ管理システムで実行される(Sarovich&Price、2014)。プログラムlyve-SETはアウトブレイクの調査に適用され、未処理またはシミュレートされたリードを使用してSNPを特定する(Katz et al、2013)。最後に、CFSAN SNP pipeline は、米国食品医薬品局(EPA)のrawリードのみをサポートする方法である(Pettengill et al、2014)。著者らの知る限り、一連のテストデータセットでこれらのパイプラインの機能を比較するための公開された比較研究はない(論文執筆時点)。
この研究では、NASPパイプラインについて説明する。 NASPは、SNPを迅速に識別し、さまざまなジョブ管理システムで動作し、複数のリードアライナとSNPコーラーを組み込み、未処理のリードとゲノムアセンブリの両方で動作し、monomorphic と polymorphicのバリアント両方をコールする、バージョン管理されたメソッドである。多様なデータセットで検証されている。本研究では、3つのバクテリアデータセットの分析において、NASPと他の方法(both reference-dependent and reference-independen)を比較する。
ワークフロー。論文より転載。
マニュアル
http://tgennorth.github.io/NASP/install.html
インストール
cent os6でテストした。
依存
- Python 3
- readline(optional)
Optional
アライナー
- Samtools < 1.3
- trimmomatic
- MUMmer >= 3.23
SNVコーラー
- VarScan >= 2.3.6
- SolSNP
- GATK
- picard-tools required with GATK
本体 Github
#Anaconda環境ならcondaを使う。(リンク)
conda install -c bioconda nasp
#Anacondaを使ってないならpipで導入できる。依存ツールは別に導入する。
pip install nasp
dockerのイメージも利用できる。
> docker pull biocontainers/nasp
実行方法
ツール名を打つとスタートする。
nasp
あとは端末に表示されるメッセージにYes、No、で答えて解析を進めていく。必要なツールにパスが通っていないと、フルパスを要求される。あらかじめ、パスを通しておくと楽に進める。
質問に答えると、バックグラウンドでリアルタイムでジョブが動く。質問に答えている間に指定したディレクトリにデータがどんどん出力されていくため、データサイズが小さいと、ほぼリアルタイムで解析が終わる。
引用
NASP: an accurate, rapid method for the identification of SNPs in WGS datasets that supports flexible input and output formats
Jason W. Sahl, Darrin Lemmer, ason Travis, James M. Schupp, John D. Gillece, Maliha Aziz, Elizabeth M. Driebe, Kevin P. Drees, Nathan D. Hicks, Charles Hall Davis Williamson, Crystal M. Hepp, David Earl Smith, Chandler Roe, David M. Engelthaler, David M. Wagner, Paul Keim
Microb Genom. 2016 Aug 25;2(8):e000074.