ロングリードオーバーラップからゲノムサイズを推定する LRGE

　ゲノム解析において正確なゲノムサイズの推定は重要な要素であるが、既存のツールは主にショートリードデータに最適化されている。本著者らは、リード間のオーバーラップ情報を利用して、リファレンスフリーな方法でゲノムサイズを推定する新しいツールであるLRGEを紹介する。LRGEは、リードの長さと最小オーバーラップ閾値を考慮して、各リードについて予想されるオーバーラップ数を分析することにより、リードごとのゲノムサイズを推定する。最終的なサイズはこれらの推定値の中央値となり、オーバーラップのないリードなどの異常値に対するロバスト性が確保される。さらに、LRGEは推定値の信頼範囲を提供する。LRGEは、k-merベースの手法を精度と計算効率の両面で上回り、Ravenのようなアセンブリーベースのアプローチと同等のゲノムサイズ推定値を、大幅に少ない計算資源で得ることができる。大規模で多様な細菌データセットでLRGEを検証し、真核生物データセットへの汎用性を確認した。

　本手法であるLRGE（Long Read-based Genome size Estimation from overlaps）はRustで実装されており、ほとんどのアーキテクチャ用のコンパイル済みバイナリ、Biocondaパッケージ、ビルド済みコンテナイメージ、crates.ioパッケージとしてバイナリ（lrge）またはライブラリ（liblrge）として利用可能である。ソースコードはMITライセンスでhttps://github.com/mbhall88/lrgeにある。

インストール

cargoでubuntu22.04にインストールした。

Github

#cargo
cargo install lrge

#conda
mamba install -c bioconda lrge -y

#source
git clone https://github.com/mbhall88/lrge.git
cd lrge
cargo build --release
target/release/lrge -h

ほかにもdockerやApptainerのイメージが利用可能

> lrge -h

<INPUT> Input FASTQ file

Options:

-o, --output <OUTPUT> Output file for the estimate [default: -]

-T, --target <INT> Target number of reads to use (for two-set strategy; default) [default: 10000]

-Q, --query <INT> Query number of reads to use (for two-set strategy; default) [default: 5000]

-n, --num <INT> Number of reads to use (for all-vs-all strategy)

-P, --platform <PLATFORM> Sequencing platform of the reads [default: ont] [possible values: ont, pb]

-t, --threads <INT> Number of threads to use [default: 1]

-C, --keep-temp Don't clean up temporary files

-D, --temp <DIR> Temporary directory for storing intermediate files

-s, --seed <INT> Random seed to use - making the estimate repeatable

-q, --quiet... `-q` only show errors and warnings. `-qq` only show errors. `-qqq` shows nothing

-v, --verbose... `-v` show debug output. `-vv` show trace output

-h, --help Print help (see more with '--help')

-V, --version Print version

テストラン

Mycobacterium tuberculosis（ゲノムサイズ4,405,449 bp）のONTロングリードをダウンロードする。

wget -O reads.fq.gz "ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR283/049/SRR28370649/SRR28370649_1.fastq.gz"

ファイルサイズ650MB

リード数187,189

ロングリードのfastqを指定し、任意で出力も指定する。

lrge -t 8 reads.fq.gz -o size.txt -P ont

-o Output file for the estimate [default: -]
-t Number of threads to use [default: 1]
-P Sequencing platform of the reads [default: ont] [possible values: ont, pb]

Estimated genome size: 4.43 Mbp (IQR: 3.23 Mbp - 4.99 Mbp)

レポジトリと論文より

2つの方法を使用できる。Two-set strategyは、LRGEがデフォルトで使用する方法である。これは、入力から2つの異なるリードの部分集合をランダムに選択する。一方のサブセットはターゲットセット、もう一方をクエリーセットとして扱う。
all-vs-all strategyでは、入力中のリードのランダムなサブセット（-n）を互いにオーバーラップさせる。この戦略は一般的にTwo-set strategyよりも計算コストが高いが、より正確である可能性がある。しかし、著者らのテストでは統計的に有意な差は見られなかった（レポジトリより）。
LRGEは細菌に焦点をあてて開発されているが、LRGEが真核二倍体生物の3つのモデル生物に対しても3つの方法とともにLRGEを評価した： S. cerevisiae、D. melanogaster、A. thaliana。S.cerevisiaeとA.thalianaのϵ_rel (: 推定値(Ĝ)と真の値(G)の差のパーセンテージを、真の値に対して相対的にスケーリングしたもの)が最も低く、D.melanogasterのϵ_relは3-8%以内だった（Table S3）。

引用

Genome size estimation from long read overlaps

Michael B Hall, Lachlan J M Coin

bioRxiv, Posted December 02, 2024.