macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Procaryote向けの自動アセンブリパイプライン A5-miseq

 

 ゲノムアセンブリは、rawシーケンシングデータから始まり、スキャホールディングされたコンティグで終わる全データ処理ワークフローからなる。この手順は、アダプタのトリミング、クオリティフィルタリング、エラー訂正、コンティグの作成、アセンブリへのリードのマッピングによるコンティグの検証、スキャフォールドの作成/検証で構成されることがよくある。

 著者らは以前にイルミナrawシーケンシングデータからバクテリアゲノムアセンブリを生成するためのすべてのステップを自動化したパイプラインA5を発表した(Tritt et al、2012)。ワークフローには5つのステップがあり、各ステップのパラメータはHalophilic archaea でアセンブリが最適化され、E.coliでテストされた。A5の発表以来、イルミナのケミストリーは大幅に進歩しており、MiSeqマシンはHiSeq 2000で可能だったものよりも4倍長い400ntの長さを超えるリードを生成することができる(*1)。リードが長くなるほどゲノム全体をより少ないリード数でカバーすることが可能になるが、そのためにはA5のデータ処理アルゴリズムを大幅に改訂する必要があった。

 この論文では、元のA5パイプラインのいくつかのコンポーネントを新しいソフトウェアモジュールに置き換え、実質的に改良されたアセンブリを生成する、A5-miseqと呼ばれる修正されたパイプラインを導入する。

 A5-miseqパイプラインは、5つのステップから構成されている。(1)Read cleaning—リードの低クオリティの領域はTrimmomatic(Lohse et al、2012)によって削除される。リードのエラーは、SGAのk-merベースのエラー訂正アルゴリズム(Simpson and Durbin、2012)を使用して修正される。 (ii)Contig assembly—ペアエウンドリードとペアエンドでないリードはIDBA-UDアルゴリズム(Pengら、2013)でアセンブリされる。 (iii)Crude scaffolding—コンティグは、許容可能なパラメータを使用して、少しでも利用可能な大きなインサートライブラリーがあればそれを用いてscaffoldingされる。 (iv)Misassembly correction— ミスアセンブリは、予想される距離内にマップしないペアエンドに基づいて検出される。そのようなアセンブリは破壊される。 (v)Final scaffolding—厳密なパラメータ設定で壊したコンティグを修復する。最後にアセンブリstatisticsおよびベースコール推定値も生成される。

 A5-miseqは、A5と比べてステップ(i)および(ii)を実質的に改訂する。ステップ(i)において、A5は、任意の量のアダプターリードスルーを含むことが判明したリード全体を廃棄していた。標準的なNextera XTプロトコルは、現在標準的なペアエンドの300 ntケミストリでシーケンシングした場合、リードの大部分(極端な場合は> 50%)がアダプターのリードスルーを含むライブラリーになる。このようなリードを廃棄する代わりに、A5-miseqではリードの汚染された部分のみをトリミングする。ステップ(ii)において、A5-miseqは、コンティグ生成の間にリードのペア情報を利用するコンティグアセンブリアルゴリズム(IDBA-UDソフトウェアで実施される)を使用する。この改善は、コンティグ生成ステップ中に誤ったコンティグが形成される頻度を低減する。(一部略)

 著者らはGAGE-B MiSeqデータセットでA5-miseq 20140521とA5をベンチマークした。 GAGE-Bのデータには4生物からの100x、250ntペアエンドシーケンシングデータセットが含まれている。 A5-miseqとA5のアセンブリを実行し、GAGE-Bの論文(Magoc et al、2013)で議論されている他のアセンブラの結果と比較した。元のA5は250ntリードを扱えなかったため、アセンブリ前にTrntomaticを使用してリードを150nt(100ntを破棄)まで削った。実行時間とピークメモリは、Ubuntu 13.10を実行して2012 MacBook Airの/ usr / bin / time -vで測定した。アセンブリ精度を評価するために、QUAST v2.2(Gurevich et al、2013)を以下のパラメータで実行した:

quast.py ––gage -u -G ref.gff -R ref.fa ass.fa

ref.fa NCBIのリファレンスアセンブリであり、ref.gffはNCBIリファレンスのアノテーション付き遺伝子リストであり、ass.faは今回のアセンブリである。 -uオプションを指定すると、QUAST v1.3で使用される方法でゲノムfractionが計算される。これにより、GAGE-B論文の結果と同等の結果が得られる。

 別の実験では、A5およびA5-miseqによって産生されたアセンブリの完全性が、シーケンシングデータ量の減少に応じてどのように変化するかを評価した。そのために、100×カバレッジGAGE-Bデータセットを50×、40×、30×、20×、10×、5×カバレッジにランダムダウンサンプリングし、それらをアセンブリし、QUASTでアセンブリ精度を測定した。

 

ラップトップマシンでも動作するよう設計されている全自動アセンブリツールです。

https://chipster.csc.fi/manual/a5-miseq.html

A5-miseqに関するツイート。

 

インストール

ubuntu18.04 Anaconda2.1.0でテストした。

依存

A5-miseq requires 64-bit Linux (kernel 2.6.15 or later) or Mac OS X 10.6 or later. A Java Runtime Environment is also required. Mac OS X includes Java. On Linux, check with your distribution provider for details on installing Java.

The following two components have been modified from their original versions and the corresponding GPL licensed source code is available in the A5-miseq repository:

本体 SourceForge

ngopt / Wiki / A5PipelineREADME

#Anaconda環境ならcondaでインストールできる
conda install -c bioconda a5-miseq

> a5_pipeline.pl

$ a5_pipeline.pl

 

A5-miseq version 20160825

Usage: a5_pipeline.pl [--begin=1-5] [--end=1-5] [--preprocessed] [--threads=4] [--debug] [--metagenome] <lib_file> <out_base>

 

Or: a5_pipeline.pl <Read 1 FastQ> <Read 2 FastQ> <out_base>

 

Or: a5_pipeline.pl <Read 1,2 Interleaved FastQ> <out_base>

 

<out_base> is the base file name for all output files. When assembling from 

a single library, the fastq files may be given directly on the command line.

If using more than one library, a library file must be given as <lib_file>.

The library file must contain the filenames of all read files.

 

If --preprocessed is used, <lib_file> is expected to be the library file

created during step 2 of the pipeline, named <out_base>.preproc.libs. Note 

that this flag only applies if beginning pipeline after step 2.

 

ラン

ペアエンドのfastqを指定する。

a5_pipeline.pl --threads=4 read_1.fastq.gz read_2.fastq.gz output

PE v1.0 adapters(TruSeq adapters, and Nextera (XT) adapters)のアダプターは自動認識される。自作アダプターを使っている場合、fastaに記載し--adapter=で指定する。

 

ジョブが終わると、最終出力assembly.out.contigs.fastaと要約統計output..assembly_stats.csvが出力される。出力の詳細はSourceForgeで確認してください。

ngopt / Wiki / A5PipelineREADME

 

引用
A5-miseq: an updated pipeline to assemble microbial genomes from Illumina MiSeq data
Coil D, Jospin G, Darling AE

Bioinformatics. 2015 Feb 15;31(4):587-9.

 

*1

長くなると3'末端のクオリティが落ち込みが激しくなり、いいことばかりではない。