ロングリードデータを用いたプラスチドゲノムのアセンブリを行う ptGAUL

　プラスチドゲノム（プラストーム）の構造は、ほとんどの種子植物で高度に保存されているが、過去20年間の研究により、大幅な再配列を経験したいくつかの異種族系統が明らかになっている。ほとんどのプラストームには、大きなインバーテッドリピートと2つのシングルコピー領域、そしていくつかの分散型リピートが含まれているが、いくつかの分類群のプラストームには長いリピート配列（>300 bp）が存在する。このような長い繰り返し配列は、ショートリードのデータを用いて完全なプラストームを組み立てることを困難にし、ミスアセンブリや偽の再配列を伴うコンセンサス配列の原因となる。1分子ロングリードシーケンスは、このような課題を克服する可能性を秘めているが、ロングリードデータを使用してプラストームを正確にアセンブルするための最も効果的な方法についてのコンセンサスは得られていない。本著者らは、Oxford Nanopore Technologies (ONT)やPacific Biosciencesのプラットフォームから得られるロングリードデータを用いたプラスチドームアセンブリの問題に対処するためのパイプライン、plastid Genome Assembly Using Long-read data (ptGAUL) を作成した。16の公開ロングリードデータセットを用いてptGAULパイプラインの有効性を実証した。プラストームデータの50倍程度のカバレッジで、ptGAULは正確で偏りのないアセンブリを迅速に生成することが示された。さらに、ONTロングリードを用いた4つの新しいJuncus（Juncaceae）プラストームのアセンブルにptGAULを導入した。その結果、Juncusのプラストームでは、Poalesの基本の系統と比較して、多くの長いリピート配列とリアレンジメントがあることがわかった。ptGAULパイプラインはGitHub: https://github.com/Bean061/ptgaul で公開されている。

インストール

レポジトリに書かれている通り、conda（mamba）で環境を作ってテストした。

Github

mamba create --name chloroplast python=3.7
source activate chloroplast
mamba install -c bioconda ptgaul -h

> ptGAUL.sh -h

Usage: ptGAUL.sh -r (REFERENCE FILE) -l (LONG READ FILE)

[-t threads int] [-g genome size int]

[-c coverage int] [-f filter threshold int]

[-o output directory string]

this pipeline is used for plastome assembly using long read data.

optional arguments:

-h, --help <show this help message and exit>

-r, --reference <MANDATORY: reference contigs or scaffolds in fasta format>

-l, --longreads <MANDATORY: raw long reads in fasta/fastq/fq.gz format>

-t, --threads <number of threads, default:1>

-g, --genomesize <expected genome size of plastome (bp), default:160000>

-c, --coverage <a rough coverage of data used for plastome assembly, default:50>

-f, --filtered <the raw long reads will be filtered if the lengths are less than this number (bp); default: 3000>

-o, --outputdir <output directory of results, defult is current directory>

_____ _ _ _ _

___ _ / ___ \ / _ \ | | | | | |

/ _ \ | | / / \ \ / / \ \ | | | | | |

/ / \ \ __| |__ | | \_| / / \ \ | | | | | |

|| |||__ __| | | / / _ \ \ | | | | | |

| \_/ / | | | | ___ / ___ \ | | | | | |

| __/ | |_ | | |__ | / / \ \ \ \ / / | | _

| | | | \ \ ___ / / / / \ \ \ \ ___ / / | | _____ | |

|_| |__/ \ _____ / /_/ \_\ \ _____ / | _________ |

実行方法

近縁種のプラストーム（同属または同科のリファレンス）とロングリードデータ（PacBioかONTのfasta, fastq, fq.gz形式）を指定する。

ptGAUL.sh -r ref_genome.fasta -l long_read.fq.gz -t 20

-r <MANDATORY: reference contigs or scaffolds in fasta format>
-l <MANDATORY: raw long reads in fasta/fastq/fq.gz format>
-t <number of threads, default:1>
-g <expected genome size of plastome (bp), default:160000>
-o <output directory of results, defult is current directory>

出力例

result_3000/

result_3000/ptGAUL_final_assembly/

ポストアセンブリステップとして、レポジトリでは、ショートリードかロングリードを用いたpolishingが強く推奨されています。FMLRCがほかのポリッシングツールより性能が優れているとのことで、FMLRCをイルミナのリードと組み合わせて使う例が書かれています。

引用

Plastid Genome Assembly Using Long-read data
Wenbin Zhou, Carolina E. Armijos, Chaehee Lee, Ruisen Lu, Jeremy Wang, Tracey A. Ruhlman, Robert K. Jansen, Alan M. Jones, Corbin D. Jones

Mol Ecol Resour. 2023 Mar 20