ロングリードベースの真核生物アセンブリを７つの指標で評価する PAQman

　ロングリードシーケンシングとアセンブリアルゴリズムの進歩により、高品質なゲノムアセンブリの生成はより容易かつ費用対効果の高いものとなった。しかし、既存ツールはしばしば限られた指標に依存し、あるいは比較用のリファレンスアセンブリを必要とするため、アセンブリ品質の評価は依然として困難である。この課題に対処するため、本著者らはPost-Assembly Quality manager（PAQman）を開発した。これはゲノム品質の7つのリファレンス不要な特徴（Contiguity, Gene content, Completeness, Accuracy, Correctness, Coverage, and Telomerality.）を評価するツールである。PAQmanは複数の汎用ツールとカスタムスクリプトを統合し、ユーザーが提供する必要があるのはゲノムアセンブリとその基盤となるロングリードデータのみである。これにより、データセットや生物種を横断した品質評価のための効率的で一貫性のあるフレームワークを提供する。

　PAQmanは、ロングリードシーケンスデータから得られた真核生物ゲノムアセンブリを包括的かつリファレンス不要で評価するためのアンサンブルベースのツールである。7つの品質特性を同時に統合することで、標準化され再現性のあるフレームワークを用いてアセンブリ品質を容易に評価できる。PAQmanはconda環境およびApptainerイメージとして配布されている。ソースコードとドキュメントは、本研究で使用したv1.1.0版について、GitHub リポジトリ（https://github.com/samtobam/paqman）およびZenodoアーカイブ（https://doi.org/10.5281/zenodo.16039705）から無料で入手できる。

インストール

Github

#conda
mamba create -n paqman python=3.12 -y
conda activate paqman
#依存
mamba config --append channels pwwang
mamba install -c conda-forge -c bioconda -c pwwang samtobam::paqman -y

#Apptainer / Singularity（未テスト）
docker pull ghcr.io/samtobam/paqman:latest

> paqman.sh -h

PAQman (version: v1.0.1)

paqman.sh -a assembly.fa -l long-reads.fq.gz

Required inputs:

-a | --assembly Genome assemly in fasta format (*.fa / *.fasta / *.fna) and can be gzipped (*.gz)

-l | --longreads Long reads used for assembly in fastq or fasta format (*.fa / *.fasta / *.fna / *.fastq / *.fq) and can be gzipped (*.gz)

Recommended inputs:

-x | --platform Long-read technology to determine mapping mapping parameters. Choose between 'ont' or 'pacbio-hifi' or 'pacbio-clr' (default: ont)

-b | --buscodb Name of BUSCO database to be used (default: eukaryota)

-t | --threads Number of threads for tools that accept this option (default: 1)

-r | --repeat Telomeric repeat pattern (default: TTAGGG)

-1 | --pair1 Paired end illumina reads in fastq format; first pair. Used by Merqury, CRAQ and coverage analysis (Recommended). Can be gzipped (*.gz)

-2 | --pair2 Paired end illumina reads in fastq format; second pair. Used by Merqury, CRAQ and coverage analysis (Recommended). Can be gzipped (*.gz)

Optional parameters:

-w | --window Number of basepairs for window averaging for coverage (default: 30000)

-s | --slide Number of basepairs for the window to slide for coverage (default: 10000)

-p | --prefix Prefix for output (default: name of assembly file (-a) before the fasta suffix)

-o | --output Name of output folder for all results (default: paqman_output)

-seq | --sequences Whether or not to use scaffolds or contigs; provide 'scaffolds' to not break the assembly at N's (default: contigs)

-c | --cleanup Remove a large number of files produced by each of the tools that can take up a lot of space. Choose between 'yes' or 'no' (default: yes)

-h | --help Print this help message

実行方法

ゲノムアセンブリとロングリードを指定する。

paqman.sh -a assembly.fa -l long-reads.fq.gz

#ショートリードや他のオプションも指定する。
paqman.sh -a assembly.fa -l long-reads.fq.gz -1 R1.fq.gz -2 R2.fq.gz -t 20 -r TTAGGG -b eukaryota -x pacbio-hifi

-a | --assembly Genome assemly in fasta format (*.fa / *.fasta / *.fna) and can be gzipped (*.gz)
-l | --longreads Long reads used for assembly in fastq or fasta format (*.fa / *.fasta / *.fna / *.fastq / *.fq) and can be gzipped (*.gz)
-x | --platform Long-read technology to determine mapping mapping parameters. Choose between 'ont' or 'pacbio-hifi' or 'pacbio-clr' (default: ont)
-b | --buscodb Name of BUSCO database to be used (default: eukaryota)
-t | --threads Number of threads for tools that accept this option (default: 1)
-r | --repeat Telomeric repeat pattern (default: TTAGGG)
-1 | --pair1 Paired end illumina reads in fastq format; first pair. Used by Merqury, CRAQ and coverage analysis (Recommended). Can be gzipped (*.gz)
-2 | --pair2 Paired end illumina reads in fastq format; second pair. Used by Merqury, CRAQ and coverage analysis (Recommended). Can be gzipped (*.gz)

出力例

summaryファイルに全ての結果がまとめられる。詳細はレポジトリで説明されている。

（途中まで）

PAQmanには複数のアセンブリからのサマリーファイルを比較・分析するツールpaqplotsも用意されている（ツールやパラメータのベンチマークを容易にする目的）。ランするには、 summaryファイル（同一ヘッダー付き）を結合して指定するだけ。

paqplots.sh -s summary_file.tsv -p prefix -o paqplot_output

#またはlist形式で指定
paqplots.sh -l list_of_summary_files.txt -p prefix -o paqplot_output

主要な統計のレーダーチャート形式のプロットとその他統計の棒グラフが得られる（詳しくはレポジトリを確認してください）

論文より

連続性。アセンブリ後の評価で圧倒的に最も一般的な指標は、コンティグ/スキャフォールド数、アセンブリサイズ、コンティグ/スキャフォールドN50である。一般的に、スキャフォールド数が少なく、アセンブリサイズとコンティグN50が大きいほど、アセンブリの品質が高いとみなされる。
遺伝子内容。連続性以外にアセンブリ評価で最も一般的なツールはBUSCOであり、普遍的に保存されたなシングルコピーオルソログの各種データベースの回収率を定量化する（Tegenfeldt et al. 2025）。シングルコピーオルソログの回収率（0～100%）はアセンブリ品質と正の相関を示す。PAQmanの-bパラメータを使用すると、対象生物の分類系統に基づいてBUSCOに最適なデータベースを指定できる。
完全性。タンパク質コード遺伝子が高密度に存在するゲノム領域は、非遺伝子領域と比較して反復配列が比較的少ないため、一般的にアセンブリが容易である。アセンブリの完全性は、遺伝子内容に加えて、生データのリードに含まれるk-merがアセンブリにも存在するかどうかという観点から、より包括的に評価できる。PAQmanはまず、ショートリードが提供されている場合（-1 -2）、Merylカウント（Miller et al. 2008）を用いてショートリードのk-mer分布を構築する。次に、このMerylデータベースとアセンブリをMerqury（Rhie et al. 2020）に提供し、k-merベースの完全性を計算する。完全性は最大100%のパーセンテージで算出される。
精度。特徴3（完全性）で計算されたk-mer分布を用いて、Merquryはゲノム全体のシーケンスエラー数を推定し、アセンブリに対してPhred品質スコア（=-10×log10(Pe); Pe：推定エラー確率）を提供する。この推定値はアセンブリ内に残存する可能性のあるエラー数を示し、一般的なアセンブリポリッシングツール/パイプラインが品質を向上させるかを検証するために使用できる。一般的に、Phred品質スコアが30を超えるアセンブリは高品質と見なされるが、近年のロングリード化学技術やポリッシング手法では45以上が一般的である。
正確性。リファレンス品質のアセンブリが主流となった現代において、ユーザーはゲノム内容が存在すべき場所に存在するかどうかだけでなく、構造レベルで正しくアセンブリされているか、すなわち存在すべき位置に存在しているかにも関心を持つ。CRAQ（Li et al. 2023）は、リードマッピングの証拠を用いてアセンブリ内の潜在的なアセンブリエラー領域を強調する。これによりゲノム全体の構造的正確性の推定値が得られ、アセンブリの連続性に関する主張を裏付ける証拠を提供する。PAQmanはまず、提供されたロングリードシーケンスデータを最大50Xカバレッジまでダウンサンプリングし、Filtlong（https://github.com/rrwick/Filtlong/）を用いてリード長に重み付けした選択を行い、その後、提供されている場合はショートリードに加えてフィルタリング済みリードデータセットをCRAQに提供する。PAQmanは次に、小規模な局所的エラー(R)と大規模な構造的エラー(S)の検出に基づきアセンブリ品質を評価する2つの要約統計量、R-AQIとS-AQIに焦点を当てる。このスコアはパーセンテージで表され、100%は検出可能なエラーが存在しないことを意味する。
カバレッジ。リードマッピングによって特定領域のカバレッジがゲノム全体の中央値と比較して変動するかどうかを評価する。この評価指標の重要な用途の一つは、アセンブリ過程で重複配列領域が単一コピーに収縮したかどうかを判断することにある。収縮してしまった領域ではカバレッジが顕著に増加する。したがってカバレッジは、大規模重複や異数性などより複雑なリアレンジメントの理解と位置特定に役立つ。最終統計量として、PAQmanはゲノム全体のカバレッジ中央値から2標準偏差以内の領域がゲノム全体に占める割合を算出する。理想的には、この割合が大きいほど望ましい。
Telomerality。この用語は、アセンブリされた配列にテロメア末端が含まれているかどうかを示す一連の統計量を定義する。これは複雑な亜テロメア領域が組み立てられており、コンティグが完全なテロメア間（T2T）染色体を表している可能性が高いことを示す指標である。生物固有のテロメア反復配列は-rパラメータで指定され、seqkit locate（Shen et al. 2016）で迅速に特定され、bedtools mergeで処理される。この処理では、最大1つの欠落反復を許容しながら重複する反復配列をマージする。集約された反復領域が少なくとも2反復分のサイズを有する場合、その反復はテロメア性であるとみなされる。コンティグ/スキャフォールドの末端がテロメアでキャップされているとみなされるのは、末端から反復までの距離がテロメア反復領域全体のサイズの75%未満である場合である。