ギャップフリーゲノムアセンブリとセントロメリックリピート同定のためのT2Tツールキット quarTeT

2024/04/08 CLI追記

　高品質なゲノムは、機能的、進化的、比較ゲノム研究の基礎である。telomere-to-telomere (T2T)アセンブリという新しい時代の到来とともに、複雑な染色体構造や高度な反復配列の解明に注目が集まっている。しかし、T2Tゲノムの自動構築や特性解析のためのバイオインフォマティクスツールは限られている。本著者らは、ユーザーフレンドリーなウェブツールキットQuarTeT： AssemblyMapper、GapFiller、TeloExplorer、CentroMinerを開発した。まずAssemblyMapperは、相補的なコンティグを近縁のゲノムを参照して染色体レベルのゲノムにアセンブルするように設計されている。次にGapFillerは、ウルトラロングの追加シークエンシングの助けを借りて、与えられたゲノムの閉じていないギャップをすべて埋めるように努める。最後に、TeloExplorerとCentroMinerが、テロメアとセントロメアの候補と、各染色体上の局在を同定するために適用される。これら4つのモジュールは、T2Tゲノムのアセンブリやキャラクタリゼーションに単独で、あるいは組み合わせて使用することができる。ケーススタディとして、quarTeTのモジュール機能を全て採用することで、手作業を加えてアセンブルされたHongyang v4.0の報告ゲノムに匹敵する品質のActinidia chinensisゲノムアセンブルを達成した。さらに、シロイヌナズナおよび Oryza sativaゲノムのセントロメアを検索してCentroMinerを評価した結果、QuarTeTはこれまで実験的手法によって検出されてきたすべてのセントロメア領域を同定できることが示された。QuarTeTは、大規模なT2Tゲノムの研究のための効率的なツールキットであり、登録なしでhttp://www.atcgn.com:8080/quarTeT/home.htmlで利用できる。

web guide

http://www.atcgn.com:8080/quarTeT/docuWeb.html

CLI tutorial

http://www.atcgn.com:8080/quarTeT/docuCLI.html

QuarTeTのワークフロー。論文より転載

ここではwebサービスについて紹介します。

webサービス

http://www.atcgn.com:8080/quarTeT/home.htmlにアクセスする。

４つのツールが利用できる。左側から見ていく。

１、AssemblyMapper - リファレンスガイドアセンブルツール
入力として、phased contig-level assemblyと、近縁のリファレンスゲノムが必要。このようなphasingされたアセンブリは hifiasm を使って取得することが推奨されている。hifiasmで生成した{prefix}.bp.hap1.p_ctg.gfaと{prefix}.bp.hap2.p_ctg.gfaを別々にFASTA形式に変換して指定する。

圧縮されていない生のリファレンスゲノムfastaファイルを指定するかアップロードする。

続いて圧縮されていないphased contig assemblyのfastaファイルをアップロードする。

任意でパラメータを設定後にRUNする。

コメント：AssemblyMapperとGapFillerはランタイムが非常に長い（エラーを起こしている可能性がある）。ローカルでランした方が早いと思われる。

２、GapFiller - ロングリードベースのギャップフィリングツール
入力として、gap-tied genome（ギャップで繋がれたscaffolds）とそれに対応するロングリードが必要（リードの代わりにロングリードをアセンブルしてポリッシュしたコンティグを使用すると、品質が向上する可能性がある）。

gap-tied genome、（ウルトラ）ロングリードをアップロードする。

任意でパラメータを設定してRUNする。

3、TeloExplorer - テロメア同定ツール

fasta形式のゲノムファイルが必要。

４、CentroMiner - セントロメア予測ツール
fasta形式のゲノムファイルが入力として必要。

オプションとして、gff3形式のTEアノテーション（またはLTRアノテーションのみ）を追加入力すると、パフォーマンスが向上する。TEアノテーションはEDTAで取得することが推奨される（EDTAで生成された<prefix>.mod.EDTA.TEanno.gff3は、配列IDが15文字以上でない限り、直接CentroMinerに入力できる。配列IDはゲノムと一致している必要がある。3列目の配列オントロジーには、"LTR "を含めると認識される）。

CLIのコマンドについて追記

依存するツール

Python3 (>3.6, tested on 3.7.4 and 3.9.12)
Minimap2 (tested on 2.24-r1122 and 2.24-r1155-dirty)
MUMmer4 (tested on 4.0.0rc1)
trf (tested on 4.09)
CD-hit (tested on 4.6 and 4.8.1)
BLAST+ (tested on 2.8.1 and 2.11.0)
tidk (tested on 0.2.1 and 0.2.31)
gnuplot (tested on 4.6 patchlevel 2 and 6)
R (>3.5.0, tested on 3.6.0 and 4.2.2)
RIdeogram (tested on 0.2.2)

#環境作成と依存ツールの導入
mamba create -n quartet --channel conda-forge --channel bioconda Python Minimap2 MUMmer4 trf CD-hit BLAST tidk R R-RIdeogram gnuplot
conda activate quartet python=3.9 -y

#本体
git clone https://github.com/aaranyue/quarTeT.git
cd quarTeT/

> python3 quartet.py

quarTeT: Telomere-to-telomere Toolkit

version 1.1.8

Usage: python3 quartet.py <module> <parameters>

Modules:

AssemblyMapper | am Assemble draft genome.

GapFiller | gf Fill gaps in draft genome.

TeloExplorer | te Identify telomeres.

CentroMiner | cm Identify centromere candidates.

Use <module> -h for module usage.

> python3 quartet.py AssemblyMapper -h

usage: quartet_assemblymapper.py [-h] -r REFERENCE_GENOME -q CONTIGS [-c MIN_CONTIG_LENGTH] [-l MIN_ALIGNMENT_LENGTH] [-i MIN_ALIGNMENT_IDENTITY] [-p PREFIX] [-t THREADS] [-a {minimap2,mummer}]

[--nofilter] [--plot] [--overwrite] [--minimapoption MINIMAPOPTION] [--nucmeroption NUCMEROPTION] [--deltafilteroption DELTAFILTEROPTION]

options:

-h, --help show this help message and exit

-r REFERENCE_GENOME (*Required) Reference genome file, FASTA format.

-q CONTIGS (*Required) Phased contigs file, FASTA format.

-c MIN_CONTIG_LENGTH Contigs shorter than INT (bp) will be removed, default: 50000

-l MIN_ALIGNMENT_LENGTH

The min alignment length to be select (bp), default: 10000

-i MIN_ALIGNMENT_IDENTITY

The min alignment identity to be select (%), default: 90

-p PREFIX The prefix used on generated files, default: quarTeT

-t THREADS Use number of threads, default: 1

-a {minimap2,mummer} Specify alignment program (support minimap2 and mummer), default: minimap2

--nofilter Use original sequence input, no filtering.

--plot Plot a colinearity graph for draft genome to reference alignments. (will cost more time)

--overwrite Overwrite existing alignment file instead of reuse.

--minimapoption MINIMAPOPTION

Pass additional parameters to minimap2 program, default: -x asm5

--nucmeroption NUCMEROPTION

Pass additional parameters to nucmer program.

--deltafilteroption DELTAFILTEROPTION

Pass additional parameters to delta-filter program.

> python3 quartet.py GapFiller -h

usage: quartet_gapfiller.py [-h] -d DRAFT_GENOME -g GAPCLOSER_CONTIG [GAPCLOSER_CONTIG ...] [-f FLANKING_LEN] [-l MIN_ALIGNMENT_LENGTH] [-i MIN_ALIGNMENT_IDENTITY] [-m MAX_FILLING_LEN]

[-p PREFIX] [-t THREADS] [--enablejoin] [--joinonly] [--overwrite] [--minimapoption MINIMAPOPTION]

options:

-h, --help show this help message and exit

-d DRAFT_GENOME (*Required) Draft genome file to be filled, FASTA format.

-g GAPCLOSER_CONTIG [GAPCLOSER_CONTIG ...]

(*Required) All contigs files (accept multiple file) used to fill gaps, FASTA format.

-f FLANKING_LEN The flanking seq length of gap used to anchor (bp), default: 5000

-l MIN_ALIGNMENT_LENGTH

The min alignment length to be select (bp), default: 1000

-i MIN_ALIGNMENT_IDENTITY

The min alignment identity to be select (%), default: 40

-m MAX_FILLING_LEN The max sequence length acceptable to fill any gaps, default: 1000000

-p PREFIX The prefix used on generated files, default: quarTeT

-t THREADS Use number of threads, default: 1

--enablejoin Enable join mode to close the gaps. (Unstable)

--joinonly Use only join mode without fill, should be used with --enablejoin.

--overwrite Overwrite existing alignment file instead of reuse.

--minimapoption MINIMAPOPTION

Pass additional parameters to minimap2 program, default: -x asm5

> python3 quartet.py TeloExplorer -h

usage: quartet_teloexplorer.py [-h] -i GENOME [-c {plant,animal,other}] [-m MIN_REPEAT_TIMES] [-p PREFIX]

options:

-h, --help show this help message and exit

-i GENOME (*Required) Genome file to be identified, FASTA format.

-c {plant,animal,other}

Specify clade of this genome. Plant will search TTTAGGG, animal will search TTAGGG, other will use tidk explore's suggestion, default: other

-m MIN_REPEAT_TIMES The min repeat times to be reported, default: 100

-p PREFIX The prefix used on generated files, default: quarTeT

> python3 quartet.py CentroMiner -h

usage: quartet_centrominer.py [-h] -i GENOME_FASTA [--TE TE] [-n MIN_PERIOD] [-m MAX_PERIOD] [-s CLUSTER_IDENTITY] [-d CLUSTER_MAX_DELTA] [-e EVALUE] [-g MAX_GAP] [-l MIN_LENGTH] [-t THREADS]

[-p PREFIX] [--trf [TRF_PARAMETER ...]] [-r MAX_TR_LENGTH] [--overwrite]

options:

-h, --help show this help message and exit

-i GENOME_FASTA (*Required) Genome file, FASTA format.

--TE TE TE annotation file, gff3 format.

-n MIN_PERIOD Min period to be consider as centromere repeat monomer. Default: 100

-m MAX_PERIOD Max period to be consider as centromere repeat monomer. Default: 200

-s CLUSTER_IDENTITY Min identity between TR monomers to be clustered (Cannot be smaller than 0.8). Default: 0.8

-d CLUSTER_MAX_DELTA Max period delta for TR monomers in a cluster. Default: 10

-e EVALUE E-value threholds in blast. Default: 0.00001

-g MAX_GAP Max allowed gap size between two tandem repeats to be considered as in one tandem repeat region. Default: 50000

-l MIN_LENGTH Min size of tandem repeat region to be selected as candidate. Default: 100000

-t THREADS Limit number of using threads, default: 1

-p PREFIX Prefix used by generated files. Default: quarTeT

--trf [TRF_PARAMETER ...]

Change TRF parameters: <match> <mismatch> <delta> <PM> <PI> <minscore> Default: 2 7 7 80 10 50

-r MAX_TR_LENGTH Maximum TR length (in millions) expected for trf. Default: 3

--overwrite Overwrite existing trf dat file instead of reuse.

(

ラン

#1. AssemblyMapper (90% identity, 20 threads, minimap2)
python3 quartet.py AssemblyMapper -q phased.contig.fa -r ref.fa -i 90 -t 20 -p prefix -a minimap2

#2. GapFiller
python3 quartet.py GapFiller -d draft.genome.fa -g gap-closer_contig.fa

#3. TeloExplorer (plant type)
python3 quartet.py TeloExplorer -i genome.fa -c plant -p prefix

#4. CentroMiner (20 threads)
python3 quartet.py CentroMiner -i genome.fa --te TE.annotation.gff3 -t 20 -p prefix

論文より

最近発表されたゲノムアセンブリパイプラインの中で、quarTeTツールキットはユニークな位置にある。TRITEXは、超ロングリードとHi-Cリードとオープンリソースツールを用いて、高品質なゲノムをアセンブルするパイプラインを記述しているが、自動ワークフローを実現していない一方、（中略）QuarTeTでは、T2Tゲノムを自動的にアセンブルすることができる。RagTagは、参照ゲノムと追加的なウルトラロングシークエンシングの助けを借りて、高品質なゲノムを組み立てるパイプラインを提供するが、参照ゲノムが信頼できることを前提としている。RagTag 'パッチ'は、最終的にギャップを埋めるために変異を廃棄したり、大きなセグメントを挿入したりする積極的な戦略を適用する。また入力と一致しない順序ですべての配列の名前を変更し、ユーザーを混乱させる。quarTeTツールキットは保守的な戦略を採用し、変異の損失を避けるために生の配列を変更することはない。
ほとんどの研究では、TRFプログラムがセントロメリックリピート領域の予測に用いられている。しかし、アクチニジアの種でこの戦略を試したとき、ほとんどの染色体でタンデムリピートに富む領域を見つけることができなかった。この問題を解決するために、新しい方法CentroMinerを開発した。CentroMinerの一般的な有効性と正確性を確認するために、A. thalianaとO. sativaゲノムのセントロメアを同定した。A. thalianaゲノムで同定されたセントロメアは、以前の研究で報告された領域と完全に一致し、O. sativaで同定されたセントロメア領域は、以前の研究で定義された領域よりもわずかに広かったが、コア領域は一致していた。（中略）StringDecomposeやHiCATは、与えられたゲノム配列中のセントロメア領域を効率的に見つけることができるが、入力として既知のセントロメアリピートモノマーを必要とし、よく研究されている種のセントロメアしか同定できない。対照的に、CentroMinerは、研究が不足している種のセントロメアを同定し、セントロメアリピートモノマーの重要な変化を発見することができる。
ただし、CentroMinerを複雑なゲノムに使用する場合には欠点に注意する必要がある。CentroMinerの方法では、候補からセントロメアを決定するために手作業によるチェックが必要である（複雑なゲノムの場合、セントロメア領域よりも関連性のないリピートに富んだ領域の方が高得点になり、セントロメアが見落とされることもある）。

引用

quarTeT: a telomere-to-telomere toolkit for gap-free genome assembly and centromeric repeat identification
Yunzhi Lin, Chen Ye, Xingzhu Li, Qinyao Chen, Ying Wu, Feng Zhang, Rui Pan, Sijia Zhang, Shuxia Chen, Xu Wang, Shuo Cao, Yingzhen Wang, Yi Yue, Yongsheng Liu, Junyang Yue

Horticulture Research, Volume 10, Issue 8, August 2023, uhad127