macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ロングリードのアセンブラ NextDenovo

2022/06/09 追記

 

Githubより

 NextDenovoは、ロングリード(CLR、HiFi、ONT)用のストリンググラフベースのde novoアセンブラです。canuと同様に "correct-then-assemble "戦略を採用していますが(PacBio HiFiリードは修正ステップなし)、必要な計算資源とストレージは大幅に少なくなっています。アセンブル後の1塩基あたりの精度は約98~99.8%ですが、さらに1塩基精度を向上させたい場合は、NextPolishを利用してください。

 NextDenovoには2つのコアモジュールがあります。NextCorrectとNextGraphです。NextCorrectは約15%のシーケンスエラーを含むノイズの多いロングリードの補正に、NextGraphは補正されたリードを用いた文字列グラフの作成に利用できます。また、minimap2の改良版といくつかの便利なユーティリティがbin/に含まれています(詳しくはユーティリティをご覧ください)。

 ヒトとショウジョウバエのOxford Nanoporeロングリードと、シロイヌナズナのPacBioロングリード(CLR)を用いて、NextDenovoと他のアセンブラとの比較ベンチマークを行ったところ、NextDenovoの方が、より多くのリードを生成しました。NextDenovoは、他のツールと比較して、より少ないコンティグでより連続したアセンブリを生成します。また、NextDenovoは、アセンブリの一貫性と一塩基の正確さの点で、高いアセンブリ精度を示しています。

 

Documentation

FAQ

https://nextdenovo.readthedocs.io/en/latest/FAQ.html

Tutorial

https://nextdenovo.readthedocs.io/en/latest/TEST1.html

 

インストール

condaでpython3の環境を作ってテストした。

依存

Github

mamba create -n nextdenovo python=3.10 -y
conda activate nextdenovo
pip install paralleltask

#本体
wget https://github.com/Nextomics/NextDenovo/releases/download/v2.5.0/NextDenovo.tgz
tar -vxzf NextDenovo.tgz && cd NextDenovo
#PATHを通す
export PATH=$PWD:$PATH

 

実行方法

1、ロングリードのリストの作成

ls reads1.fasta reads2.fastq reads3.fasta.gz reads4.fastq.gz ... > input.fofn

 

2、configファイルの雛形を用意する。

cp doc/run.cfg ./

パラメータを編集する。

2行目はローカルの計算環境ならlocal、3行目はprefix、4行目は全ステップ実行するならall、7行目は同時に走るサブタスクの数を制御している。デフォルトだとかなりの計算資源を要する。メモリも 1プロセスあたり32~64 gb RAM 使用するので注意する(20のまま試した時は、512GB物理メモリでは不足した。10に減らした)。8行目は生のロングリードならraw、9行目はONTならont、10行目はステップ1で作ったファイルのパス。11行目は作業ディレクトリ(最終出力も書き込まれる)。それ以降はパラメータ。FAQで簡単に説明されている。

 

3、NextDenovoのラン。

nextDenovo run.cfg

 

出力

全ステップ実行結果

引用

GitHub - Nextomics/NextDenovo: Fast and accurate de novo assembler for long reads

 

関連

 

コメント

自分で試してみた限り、計算資源を極めて効率的に使い、短い時間で連続性の高いコンティグ配列を得られるという印象です。

下に引用したラージゲノムのアセンブリ比較論文2つで、NextDenovoは良い結果を出していますね。特にコンティグの連続性の面で突出しています。コンティグの連続性の高さは保守的でない事、すなわちアセンブリエラーの多さの裏返しである可能性があるので安易に評価する事は出来ませんが、NECATと共にラージゲノムのアセンブリでは試してみたいアセンブラの1つになると思います。

 

参考文献1

”異なる性質を持つ2つの軟体動物ゲノム(腹足類Chrysomallon squamiferum (356.6 Mb, 1.59% heterozygosity)と二枚貝Mytilus coruscus (1593 Mb, 1.94% heterozygosity))のONT生リードをもとに、10種類のアセンブラベンチマークした。高品質なゲノムを得るためには40-50XのONTリードで十分であり、C. squamiferumに代表されるコンパクトでヘテロ接合性の低いゲノムにはFlye、M. coruscusに代表される反復性が高くヘテロ接合性の高い軟体動物ゲノムにはNextDenovoが推奨アセンブラとして適していることが示唆された。”

(PMC アーカイブ

 

参考文献2

”PacBioは99%以上の塩基レベル分解能でHiFiリードを生成し、ONTは2Mbの長さのリードを生成した。この2つの最新プラットフォームを1つのイネ個体に適用し、2つのアセンブリを比較することで、それぞれの利点と限界について検討した。PacBioのコンティグ数は394、染色体レベルのコンティグ数は3であったのに対し、ONTのウルトラロングリードはコンティグ数が18、うち10が1つの染色体にアセンブルされるなど、より高いコンティグ数を示した。また、ONTのウルトラロングリードにより、長い繰り返し領域に起因するアセンブリエラーが防止された。PacBioのアセンブリでは、合計44遺伝子の誤った冗長性と10遺伝子の誤った損失が観察され、これらの長い繰り返し領域の遺伝子ファミリーを過大評価または過小評価することにつながった。また、PacBio HiFiリードは、ONTアセンブリに比べて、1塩基エラーや小さな挿入・欠失のレベルでのエラーが非常に少ないアセンブリを生成した。”


2022/06/09追記

参考文献2のONTリードをダウンロードして、Phredスケールのクオリティ8以上、2kb以上のリードだけ取り出し、NextDenovoを使って自分でもアセンブルしてみた。Xeon E5 v4 2680 dual 30スレッドで半日かかった。得られたコンティグ数は22で、論文の結果と同じだった。以下はアセンブルに使用したリードのNanoplotによる要約統計。