macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

クロロプラストゲノムの自動アセンブリパイプライン Fast-Plast

 

 Fast-Plastは、既存および新規のプログラムを活用して、葉緑体ゲノム全体を迅速にアセンブリし、検証するパイプライン。 十分なデータを持つほとんどのデータセットについて、Fast-Plastは自動で完全長の葉緑体ゲノムアセンブリを生成できる。 Fast-Plastは、葉緑体配列生成に加え、存在する葉緑体遺伝子を同定する。Fast-PlastはIlluminaデータを使う。

 Fast-Plastは、de Bruijn graphベースのSPAdesとafinで実装された低いカバレッジでコンティグのギャップを埋めるiterative なシードベースのアセンブリを組み合わたアプローチを使っている。 パイプラインは、quadripartiteな葉緑体ゲノム構造から領域を同定し、慣習に従い順番をアサインする。 最終的なアセンブリ品質を評価するためにカバレッジ分析が実行される。

ゲノムスキミング(従来のゲノムプロジェクトとの比較(pubmed) )やlow pass シーケンス解析(Biostars)を想定して構築されたプログラムになっている。キャプチャしてエンリッチしてシーケンスしたデータを入力とする際は、bbnormやkhmerでノーマイライズしてから使うことが推奨されている。

 

インストール

cent os6でテストした。

依存

 本体 Github

https://github.com/mrmckain/Fast-Plast

git clone https://github.com/mrmckain/Fast-Plast.git
cd Fast-Plast/
perl INSTALL.pl #依存を導入するか聞いてくる。質問に"All"と答えると全導入される。

perl fast-plast.pl 

$ perl fast-plast.pl 

ERROR: Missing reads file(s).

Usage:

        fast-plast.pl [-1 <paired_end_file1> -2 <paired_end_file2> || -single <singe_end_file>] -name <sample_name> [options] 

    or

        fast-plast.pl -help

            -1 <filenames>          File with forward paired-end reads. Multiple files can be designated with a comma-delimited list. 

                                    Read files should be in matching order with other paired end files.

            -2 <filenames>          File with reverse paired-end reads. Multiple files can be designated with a comma-delimited list. 

                                    Read files should be in matching order with other paired end files.

            -s <filenames>          File with unpaired reads. Multiple files can be designated with a comma-delimited list.

 

            PAIRED END AND SINGLE END FILES CAN BE PROVIDED SIMULTAENOUSLY.

 

            -n <sample_name>        Name for current assembly. We suggest a species name/accession combination as Fast-Plast will use 

                                    this name as the FASTA ID in the final assembly.

 

    Advanced options:

 

            --threads               Number of threads used by Fast-Plast.  [Default = 4]

            --adapters              Files of adapters used in making sequencing library. Users can select "Nextera" for Nextera adapters, "TruSeq" for TruSeq adapters, leave the default (NEB), or provide their own. [Default = NEB-PE]

            --bowtie_index          Order for sample to draw references for mapping. If order exists, then all available samples for that order will be used. 

                                    If order does not exist in default set or the terms "all" or "GenBank" are given, one exemplar from each available order is used 

                                    to build the Bowtie2 indicies. [default="All"]

            --user_bowtie           User supplied bowtie2 indices. If this option is used, bowtie_index is ignored.

            --posgenes              User defined genes for identification of single copy/IR regions and orientation. Useful when major rearrangments are present in user plastomes.

            --coverage_analysis     Flag to run the coverage analysis o

 

ラン

参照とする生物種の目(order)を指定する。イネ目ならPoales。以下のリストが現在指定可能になっている。

f:id:kazumaxneo:20180616212416j:plain

ペアエンドfastqを指定してランする。--bowtie_indexでゲノムを指定する。Genome skimmngを想定して素早く自動で結果を出すことを念頭に置いており、fastqのアダプターやクオリティトリミングは未実行を想定してプロセスは進められる。

perl fast-plast.pl -1 pair1.fastq -2 pair2.fastq --name output --bowtie_index Poales --coverage_analysis --clean light --threads 12

> ls -alth output/

$ ls -alth output/

total 36K

drwxr-xr-x  2 uesaka user 4.0K Jun 16 21:56 Final_Assembly

drwxr-xr-x  8 uesaka user 4.0K Jun 16 21:56 .

drwxr-xr-x  2 uesaka user 4.0K Jun 16 21:56 4_Afin_Assembly

drwxr-xr-x  2 uesaka user 4.0K Jun 16 21:56 5_Plastome_Finishing

drwxr-xr-x  3 uesaka user 4.0K Jun 16 21:52 3_Spades_Assembly

-rw-r--r--  1 uesaka user  211 Jun 16 21:52 output3_Plastome_Summary.txt

drwxr-xr-x  2 uesaka user 4.0K Jun 16 21:52 2_Bowtie_Mapping

drwxr-xr-x  2 uesaka user 4.0K Jun 16 21:51 1_Trimmed_Reads

drwxr-xr-x 12 uesaka user 4.0K Jun 16 21:51 ..

 

解析ステップごとにサブフォルダができる。最終出力のFASTAはFinal_assembly/に保存される。1つのcontigまでアセンブリされると、5_Plastome_Finishing/ができる。出力の詳細はGithubで確認してください。

https://github.com/mrmckain/Fast-Plast

 

bin/でビルドされたspades.pyがエラーを起こしたので、手っ取り早くspadesのversion3.12のシンボリックリンクspades.pyと置き換えてランしました。応急処置でしたが、一応うまくランできます。

 

引用

https://github.com/mrmckain/Fast-Plast