Fast-Plastは、既存および新規のプログラムを活用して、葉緑体ゲノム全体を迅速にアセンブリし、検証するパイプライン。 十分なデータを持つほとんどのデータセットについて、Fast-Plastは自動で完全長の葉緑体ゲノムアセンブリを生成できる。 Fast-Plastは、葉緑体配列生成に加え、存在する葉緑体遺伝子を同定する。Fast-PlastはIlluminaデータを使う。
Fast-Plastは、de Bruijn graphベースのSPAdesとafinで実装された低いカバレッジでコンティグのギャップを埋めるiterative なシードベースのアセンブリを組み合わたアプローチを使っている。 パイプラインは、quadripartiteな葉緑体ゲノム構造から領域を同定し、慣習に従い順番をアサインする。 最終的なアセンブリ品質を評価するためにカバレッジ分析が実行される。
ゲノムスキミング(従来のゲノムプロジェクトとの比較(pubmed) )やlow pass シーケンス解析(Biostars)を想定して構築されたプログラムになっている。キャプチャしてエンリッチしてシーケンスしたデータを入力とする際は、bbnormやkhmerでノーマイライズしてから使うことが推奨されている。
インストール
cent os6でテストした。
依存
- Perl 5.x which has been installed with threading enabled (see How to build perl from source, if needed).
- Trimmomatic (initial read cleaning)
- Bowtie2 (read reduction to only chloroplast-like reads)
- SPAdes (initial assembly)
- BLAST+ (multiple checks for gene content)
- SSPACE (scaffolding when single contig not obtainable)
- Bowtie1 (required for SSPACE)
- c++ complier with c++11 support and zlib.h. zlib.h is a standard base library for most Unix systems but can be obtained here.
- Jellyfish 2
- R
本体 Github
https://github.com/mrmckain/Fast-Plast
git clone https://github.com/mrmckain/Fast-Plast.git
cd Fast-Plast/
perl INSTALL.pl #依存を導入するか聞いてくる。質問に"All"と答えると全導入される。
> perl fast-plast.pl
$ perl fast-plast.pl
ERROR: Missing reads file(s).
Usage:
fast-plast.pl [-1 <paired_end_file1> -2 <paired_end_file2> || -single <singe_end_file>] -name <sample_name> [options]
or
fast-plast.pl -help
-1 <filenames> File with forward paired-end reads. Multiple files can be designated with a comma-delimited list.
Read files should be in matching order with other paired end files.
-2 <filenames> File with reverse paired-end reads. Multiple files can be designated with a comma-delimited list.
Read files should be in matching order with other paired end files.
-s <filenames> File with unpaired reads. Multiple files can be designated with a comma-delimited list.
PAIRED END AND SINGLE END FILES CAN BE PROVIDED SIMULTAENOUSLY.
-n <sample_name> Name for current assembly. We suggest a species name/accession combination as Fast-Plast will use
this name as the FASTA ID in the final assembly.
Advanced options:
--threads Number of threads used by Fast-Plast. [Default = 4]
--adapters Files of adapters used in making sequencing library. Users can select "Nextera" for Nextera adapters, "TruSeq" for TruSeq adapters, leave the default (NEB), or provide their own. [Default = NEB-PE]
--bowtie_index Order for sample to draw references for mapping. If order exists, then all available samples for that order will be used.
If order does not exist in default set or the terms "all" or "GenBank" are given, one exemplar from each available order is used
to build the Bowtie2 indicies. [default="All"]
--user_bowtie User supplied bowtie2 indices. If this option is used, bowtie_index is ignored.
--posgenes User defined genes for identification of single copy/IR regions and orientation. Useful when major rearrangments are present in user plastomes.
--coverage_analysis Flag to run the coverage analysis o
ラン
参照とする生物種の目(order)を指定する。イネ目ならPoales。以下のリストが現在指定可能になっている。
ペアエンドfastqを指定してランする。--bowtie_indexでゲノムを指定する。Genome skimmngを想定して素早く自動で結果を出すことを念頭に置いており、fastqのアダプターやクオリティトリミングは未実行を想定してプロセスは進められる。
perl fast-plast.pl -1 pair1.fastq -2 pair2.fastq --name output --bowtie_index Poales --coverage_analysis --clean light --threads 12
> ls -alth output/
$ ls -alth output/
total 36K
drwxr-xr-x 2 uesaka user 4.0K Jun 16 21:56 Final_Assembly
drwxr-xr-x 8 uesaka user 4.0K Jun 16 21:56 .
drwxr-xr-x 2 uesaka user 4.0K Jun 16 21:56 4_Afin_Assembly
drwxr-xr-x 2 uesaka user 4.0K Jun 16 21:56 5_Plastome_Finishing
drwxr-xr-x 3 uesaka user 4.0K Jun 16 21:52 3_Spades_Assembly
-rw-r--r-- 1 uesaka user 211 Jun 16 21:52 output3_Plastome_Summary.txt
drwxr-xr-x 2 uesaka user 4.0K Jun 16 21:52 2_Bowtie_Mapping
drwxr-xr-x 2 uesaka user 4.0K Jun 16 21:51 1_Trimmed_Reads
drwxr-xr-x 12 uesaka user 4.0K Jun 16 21:51 ..
解析ステップごとにサブフォルダができる。最終出力のFASTAはFinal_assembly/に保存される。1つのcontigまでアセンブリされると、5_Plastome_Finishing/ができる。出力の詳細はGithubで確認してください。
https://github.com/mrmckain/Fast-Plast
bin/でビルドされたspades.pyがエラーを起こしたので、手っ取り早くspadesのversion3.12のシンボリックリンクspades.pyと置き換えてランしました。応急処置でしたが、一応うまくランできます。
引用
https://github.com/mrmckain/Fast-Plast