macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ハイブリッドアセンブルを行う hybridSPAdes

 

 de Bruijnグラフのアプローチは現在、ショートリードシーケンシングプロジェクトを支配しているが、ロングリードを組み立てるアプリケーションはさまざまな課題に直面している。事実、ロングリードでのエラー率が高いと、k-merサイズの任意の合理的な選択について、ロングリードからde Bruijnグラフを構築することが困難になる。その結果、既存のde novo long readアセンブラは、de Bruijn graphアプローチ(論文より Berlin et al、2015; Chin et al、2013)ではなく、overlap-layout-consensusアプローチを使用している。したがって、ショートリードとロングリードをアセンブルする際は、de Bruijn graphとoverlap-layout-consensusアプローチのどちらかを選択する必要がある。

 SPAdesは、ショートリードからde Bruijn graphを構築し、それをアセンブリグラフに変換する(Bankevich et al、2012; Nurk et al、2013)。アセンブリグラフは、バルジ、チップおよびキメラエッジの除去後のリードにおけるk-mersの凝縮および単純化de Bruijn graph(Pevzner et al、2001)として定義される。 SPAdesがアセンブリグラフを作成した後、hybridSPAdesはこのgraphのギャップクロージャとリピート分解のためロングリードを使用する、正確なショートリードとエラーが発生しやすいロングリードのシナジー効果を利用するハイブリッドアセンブリ手法である。ハイブリッドSPAdesは、Pacific Biosciencesのリード(約14%のエラー率)およびOxford Nanoporeリード(さらに高いエラー率)の両方で同じアルゴリズムを使用する(以下略)。

 

 全体として、hybridSPAdesは以下の4つのステップを踏む。

1、SPAdesを使用してショートリードからアセンブリグラフを作成する。

2、ロングリードをアセンブリグラフにマッピングし、リードパスを生成する。

3、ギャップにまたがるロングリードのコンセンサスを使用してアセンブリグラフのギャップを閉じる。
4、ロングリードパスをexSPAnderの決定ルールに組み込むことによって、アセンブリグラフの繰り返しを解決する。

 

 HybridSPAdesを他のハイブリッドアセンブリツール(Deshpande et al、2013; Koren et al、2012)に対してベンチマークし、リード数が比較的少ない場合でも正確なアセンブリを可能にすることを実証する。さらに、HybridSPAdesがシングルセルゲノムアセンブリの難しいケースでもうまく機能することを示し、未知のまま残っている難解なPhylum TM6 (McLean et al、2013)の環状クロもソームアセンブリができることを示している。

 

公式サイト

http://cab.spbu.ru/software/spades/

マニュアル

http://cab.spbu.ru/files/release3.11.1/manual.html

 

インストール

公式からダウンロードするか、brewなどで導入する。

brew install spades

 

ラン

フラグでロングリードを指定するだけでハイブリッドアセンブリを実行できる。マニュアルより

For PacBio you just need to have filtered subreads in FASTQ/FASTA format. Provide these filtered subreads using --pacbio option. Oxford Nanopore reads are provided with --nanopore option.

 

spades.py -t 20 -k auto --careful -1 R1.fastq -2 R2.fastq --nanopore long.fq -o output
  • --pacbio File with PacBio CLR reads. For PacBio CCS reads use -s option. More information on PacBio reads is provided in section 3.1.
  • --nanopore File with Oxford Nanopore reads.
  • -t Number of threads. The default value is 16.
  • -k Comma-separated list of k-mer sizes to be used (all values must be odd, less than 128 and listed in ascending order). If --sc is set the default values are 21,33,55. For multicell data sets K values are automatically selected using maximum read length (see note for assembling long Illumina paired reads for details). To properly select K values for IonTorrent data read section 3.3.
  • --cov-cutoff Read coverage cutoff value. Must be a positive float value, or 'auto', or 'off'. Default value is 'off'. When set to 'auto' SPAdes automatically computes coverage threshold using conservative strategy. Note, that this option is not supported by metaSPAdes.
  • --phred-offset <33 or 64>  PHRED quality offset for the input reads, can be either 33 or 64. It will be auto-detected if it is not specified.
  • --careful  Make sure you run assembler with the --careful option to minimize number of mismatches in the final contigs.  

 <output_dir>/corrected/にはBayesHammerでエラー訂正されたfastqがgz形式で収納される。 

 

 

引用

hybridSPAdes: an algorithm for hybrid assembly of short and long reads

Dmitry Antipov,,* Anton Korobeynikov, Jeffrey S. McLean, and Pavel A. Pevzner

Bioinformatics. 2016 Apr 1; 32(7): 1009–1015.