ラージゲノムにも対応した高速に動作するリファレンスガイドアセンブリツール RaGOO

2019 2/12スライド追加

2019 10/29 インストール方法修正、論文引用とtwitter追記

2019 10/30 コマンド微修正

2019 11/5 コマンド記載ミス修正

2019 3/24 コマンド記載ミス修正

　Oxford Nanopore TechnologiesとPacific Biosciencesによって商品化されたロングリードの一分子シーケンシング技術は、高品質の新規真核生物ゲノムアセンブリを促進している[ref.1]。さまざまな動植物種でこれらの技術を使用しているアセンブリは一貫して1Mbp以上のcontig N50を報告しているが、リピート配列をより高いパーセンテージ含むターゲットゲノムも再構築している[ref.2、3]。現在のロングリードシーケンサーは、1週間に1テラバイトを超えるロングリードを生成することができ、ショートリードシーケンシングを使用して検出するのが難しい構造変化の検出も含めこれまでにない規模の詳細な全ゲノム解析の機会を提供している。しかし、ロングリードシークエンシングデータを生成する現在のスピードとコストに遅れを取っているのは、真核生物ゲノムに広く見られる複雑なリピートや関連する構造変異を解決することがまだできないゲノムアセンブラである。断片化されたゲノムアセンブリを染色体規模のpseudomoleculesにスキャホールディングするための単純化されたより速いアプローチが必要とされている。
　染色体規模のアセンブリを達成するために、２つの一般的なアプローチ、すなわち、リファレンスフリー（デノボ）およびリファレンスガイドプローチが使用されてきた。一般的なリファレンスフリーのスキャホールディングアプローチの1つは、optical、physical、または連鎖地図[ref.5]などのゲノムマップ[ref.4]へのゲノムアセンブリコンティグのアンカリングである。このプロセスは、ゲノムマップをアセンブリ配列にアライメントさせ、マップに示された染色体構造に従ってコンティグをスキャホールディングすることを含む。しかしながら、いかなるアラインメントにも関係しないコンティグはスキャホールドに入れらず不完全なスキャホールドをもたらし得る。さらに、ゲノムマップを取得することは、種およびマップの種類に応じて、費用、時間がかかり、またはそうでなければ手に負えない可能性がある。
　Pseudomolecules構築のための別のリファレンスフリーの方法は、アセンブリされたコンティグをスキャホールドにするための長距離のゲノム情報使用を含む。これには、メイトペアシークエンシング、バクテリア人工染色体（BAC）、Linked Reads、クロマチンコンフォメーションなどの大規模技術が含まれる[ref.6-8]。特に、Hi-Cは染色体規模のスキャホールディングのための実用的で効果的なリソースであることが最近示されている[ref.9-11]。ペアエンドのHi-Cシーケンシングリードをアセンブリにアライメントし、mateが異なるコンティグにアラインしたもの（Hi-Cリンク）を記録する。コンティグペア間のそのようなHi-C結合の相対密度に従って、コンティグはより大きなスキャホールドに並び、潜在的に染色体長のPseudomoleculesを形成することができる。また、Hi-Cアラインメントを視覚化することによってミスアセンブリが観察される可能性があるため、Hi-Cはミスアセンブリの検証および手動修正に使用できる[ref.12]。 Hi-Cは広く採用されているが、Hi-C単独で正確な染色体規模のPseudomoleculesを形成する能力を妨げる可能性がある課題が残っている。主に、Hi-Cデータはノイズが多く、Hi-Cベースのスキャフォールドは構造的に不正確なスキャフォールドを生成する傾向がある[ref.13]。また、このプロセスは短いHi-Cシーケンシングリードのドラフトアセンブリへのアラインメントに依存しているため、Hi-Cリンク情報がほとんどまたは矛盾する小さくて繰り返しの多いコンティグは、正確にスキャホールディングできないことがよくある。最後に、分析にはシーケンスカバレッジがディープである必要があるため、高価で計算量が多くなる可能性がある。

　このアプローチとは別に、ChromosomerやMUMmerなどのツールがリファレンスガイドPseudomolecules構築のために開発された[ref.14-17]。そのようなツールは、スキャホールド形成のためにゲノムアセンブリとclosely relatedなリファレンスアセンブリ間のアラインメントを利用する。リファレンスガイド付きスキャフォールドは誤りを導入する可能性があるが、上記のリファレンスなしメソッドよりもかなり高速で安価である。しかしながら、現在の真核生物ゲノムのリファレンスガイドツールは、顕著な欠点を有する。第一に、これらのツールはBLAST、Nucmer、Cactusのような遅いDNAアライナーに依存しており、したがって哺乳類サイズのゲノムでは数時間から数日という長い計算時間が必要になる[ref.20-22]。これらのアライナーはまた、リピートおよび／またはギャップアラインメントに対してロバストではなく、その結果、かなりの部分のコンティグがPseudomolecules内でローカライズされていないことになる。最後に、これらの方法の多くは、真核生物ゲノムのドラフトに頻繁に存在する大規模なミスアセンブリを修正する能力も、ゲノムの真の生物学的差異による矛盾についての測定基準も報告していない。
　ここでは、closely relatedなリファレンスゲノムへのMinimap2 [ref.23]（紹介）によるアラインメントを利用して、コンティグをPseudomoleculesに迅速にクラスター化、順序付け、および方向付けるオープンソース法RaGOOを紹介する。 RaGOOはPseudomolecules構築前に見かけのキメラコンティグを修正するオプションも提供する。最後に構造変異（SV）は、最適化され統合されたバージョンのAssemblytics [ref.24]（紹介）を使用して同定され、一度に多くのゲノムの迅速な全ゲノムSV解析を可能にする。これは、リードマッピングアプローチを使用して検出することが困難である大きな挿入および他の複雑な構造変異を検出するために特に重要である。
最初に、シミュレーションデータを用いてRaGOOの速度と精度を実証し、それが2つの一般的な代替方法よりも優れていることを示す。次に、ショートリードおよびロングリードシークエンシングの組み合わせを使用して、トマトの３つの異なる野生種および栽培種について高品質の染色体規模のドラフトゲノムを作成することによってRaGOOの有用性を示す。最後に、著者らは103のドラフトA. thalianaゲノムの順序付けおよび方向付け、ならびに全ゲノムにわたる構造変異の比較によってRaGOOのスケーラビリティを実証する。これは非常に可変性の高い多数の防御応答遺伝子を明らかにした。

Thanks @mike_schatz @sedlazeck and the Lippman lab at @CSHLplants for the great collaboration. The software is being actively developed so more features/updates to come!https://t.co/2IKakaUZfg
— Michael Alonge (@malonge11) October 29, 2019

インストール

macのpython3.7.0環境でテストした（conda createで環境作成）。

依存

RaGOO should install on OSX and most standard flavors of Linux. RaGOO depends on Python3 as well as the following packages:

intervaltree
numpy
Minimap2

本体　Github

#ここではcondaで仮想環境を作って導入。setupに書かれてないminimap2はここで導入。
conda create -n RAGOO -c bioconda -y minimap2 python=3.7
conda activate RAGOO
git clone https://github.com/malonge/RaGOO.git
cd RaGOO/
python setup.py install

> ragoo.py -h

$ ragoo.py -h

usage: ragoo.py [-h] [-e <exclude.txt>] [-gff <annotations.gff>] [-m PATH]

[-b] [-R <reads.fasta>] [-T sr] [-t 3] [-g 100] [-s] [-i 0.2]

[-j <skip.txt>] [-C]

<contigs.fasta> <reference.fasta>

order and orient contigs according to minimap2 alignments to a reference

(v1.1)

positional arguments:

<contigs.fasta> fasta file with contigs to be ordered and oriented

(gzipped allowed)

<reference.fasta> reference fasta file (gzipped allowed)

optional arguments:

-h, --help show this help message and exit

-e <exclude.txt> single column text file of reference headers to ignore

-gff <annotations.gff>

lift-over gff features to chimera-broken contigs

-m PATH path to minimap2 executable

-b Break chimeric contigs

-R <reads.fasta> Turns on misassembly correction. Align provided reads

to the contigs to aid misassembly correction. fastq or

fasta allowed. Gzipped files allowed. Turns off '-b'.

-T sr Type of reads provided by '-R'. 'sr' and 'corr'

accepted for short reads and error corrected long

reads respectively.

-t 3 Number of threads when running minimap.

-g 100 Gap size for padding in pseudomolecules.

-s Call structural variants

-i 0.2 Minimum grouping confidence score needed to be

localized.

-j <skip.txt> List of contigs to automatically put in chr0.

-C Write unplaced contigs individually instead of making

a chr0

実行方法

contigのfastaとリファレンスのfastaを指定する。フルパスだとエラーが出るので、ワーキングディレクトリcontigとreferenceのシンボリックリンクを張って実行する。

ln -s <path>/<to>/ref.fasta .
ragoo.py spades_scaffolds.fasta ref.fasta

ragoo.fastaがリファレンスガイドアセンブリされたfasta。ナズナのflyeを使ったドラフトアセンブリの解析には10秒程度しかかからなかった。

出力

f:id:kazumaxneo:20190206140510j:plain

seqkit stats original-scaffold.fasta ragoo_output/ragoo.fasta

$ seqkit stats scaffolds.fasta ragoo_output/ragoo.fasta

file format type num_seqs sum_len min_len avg_len max_len

scaffolds.fasta FASTA DNA 296 133,638,000 536 451,479.7 15,055,047

ragoo_output/ragoo.fasta.gz FASTA DNA 8 133,667,600 50,589 16,708,450 32,673,117

user-n

8scaffoldsまで減っている。ほぼクロモソームレベルのアセンブリができているはず。

テスト

D-GENIESを使いリファレンスゲノムと比較してみる。

ラージゲノムにも対応したdot plot解析ツール D-GENIES - macでインフォマティクス

構造変化が起こっているようなecotypoeのデータではないので、リファレンスと全クロモソーム一致するはず。

f:id:kazumaxneo:20190206144427j:plain

大きな構造変化は見られない。うまくscaffoldingできている。SVが発生しているゲノムのデータでも試してみたい。

引用

Fast and accurate reference-guided scaffolding of draft genomes
Michael Alonge, Sebastian Soyk, Srividya Ramakrishnan, Xingang Wang, Sara Goodwin, Fritz J. Sedlazeck, Zachary B Lippman, Michael C. Schatz

bioRxiv preprint first posted online Jan. 13, 2019

RaGOO: fast and accurate reference-guided scaffolding of draft genomes

Michael Alonge, Sebastian Soyk, Srividya Ramakrishnan, Xingang Wang, Sara Goodwin, Fritz J. Sedlazeck, Zachary B. Lippman & Michael C. Schatz
Genome Biology volume 20, Article number: 224 (2019)

"100 tomato genomes in 100 days"で使用されています。