macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ラージゲノムにも対応した高速に動作するリファレンスガイドアセンブリツール RaGOO

2019 2/12スライド追加

 

 Oxford Nanopore TechnologiesとPacific Biosciencesによって商品化されたロングリードの一分子シーケンシング技術は、高品質の新規真核生物ゲノムアセンブリを促進している[ref.1]。さまざまな動植物種でこれらの技術を使用しているアセンブリは一貫して1Mbp以上のcontig N50を報告しているが、リピート配列をより高いパーセンテージ含むターゲットゲノムも再構築している[ref.2、3]。現在のロングリードシーケンサーは、1週間に1テラバイトを超えるロングリードを生成することができ、ショートリードシーケンシングを使用して検出するのが難しい構造変化の検出も含めこれまでにない規模の詳細な全ゲノム解析の機会を提供している。しかし、ロングリードシークエンシングデータを生成する現在のスピードとコストに遅れを取っているのは、真核生物ゲノムに広く見られる複雑なリピートや関連する構造変異を解決することがまだできないゲノムアセンブラである。断片化されたゲノムアセンブリを染色体規模のpseudomoleculesにスキャホールディングするための単純化されたより速いアプローチが必要とされている。
 染色体規模のアセンブリを達成するために、2つの一般的なアプローチ、すなわち、リファレンスフリー(デノボ)およびリファレンスガイドプローチが使用されてきた。一般的なリファレンスフリーのスキャホールディングアプローチの1つは、optical、physical、または連鎖地図[ref.5]などのゲノムマップ[ref.4]へのゲノムアセンブリコンティグのアンカリングである。このプロセスは、ゲノムマップをアセンブリ配列にアライメントさせ、マップに示された染色体構造に従ってコンティグをスキャホールディングすることを含む。しかしながら、いかなるアラインメントにも関係しないコンティグはスキャホールドに入れらず不完全なスキャホールドをもたらし得る。さらに、ゲノムマップを取得することは、種およびマップの種類に応じて、費用、時間がかかり、またはそうでなければ手に負えない可能性がある。
 Pseudomolecules構築のための別のリファレンスフリーの方法は、アセンブリされたコンティグをスキャホールドにするための長距離のゲノム情報使用を含む。これには、メイトペアシークエンシング、バクテリア人工染色体(BAC)、Linked Reads、クロマチンコンフォメーションなどの大規模技術が含まれる[ref.6-8]。特に、Hi-Cは染色体規模のスキャホールディングのための実用的で効果的なリソースであることが最近示されている[ref.9-11]。ペアエンドのHi-Cシーケンシングリードをアセンブリにアライメントし、mateが異なるコンティグにアラインしたもの(Hi-Cリンク)を記録する。コンティグペア間のそのようなHi-C結合の相対密度に従って、コンティグはより大きなスキャホールドに並び、潜在的に染色体長のPseudomoleculesを形成することができる。また、Hi-Cアラインメントを視覚化することによってミスアセンブリが観察される可能性があるため、Hi-Cはミスアセンブリの検証および手動修正に使用できる[ref.12]。 Hi-Cは広く採用されているが、Hi-C単独で正確な染色体規模のPseudomoleculesを形成する能力を妨げる可能性がある課題が残っている。主に、Hi-Cデータはノイズが多く、Hi-Cベースのスキャフォールドは構造的に不正確なスキャフォールドを生成する傾向がある[ref.13]。また、このプロセスは短いHi-Cシーケンシングリードのドラフトアセンブリへのアラインメントに依存しているため、Hi-Cリンク情報がほとんどまたは矛盾する小さくて繰り返しの多いコンティグは、正確にスキャホールディングできないことがよくある。最後に、分析にはシーケンスカバレッジがディープである必要があるため、高価で計算量が多くなる可能性がある。

 このアプローチとは別に、ChromosomerやMUMmerなどのツールがリファレンスガイドPseudomolecules構築のために開発された[ref.14-17]。そのようなツールは、スキャホールド形成のためにゲノムアセンブリとclosely relatedなリファレンスアセンブリ間のアラインメントを利用する。リファレンスガイド付きスキャフォールドは誤りを導入する可能性があるが、上記のリファレンスなしメソッドよりもかなり高速で安価である。しかしながら、現在の真核生物ゲノムのリファレンスガイドツールは、顕著な欠点を有する。第一に、これらのツールはBLAST、Nucmer、Cactusのような遅いDNAアライナーに依存しており、したがって哺乳類サイズのゲノムでは数時間から数日という長い計算時間が必要になる[ref.20-22]。これらのアライナーはまた、リピートおよび/またはギャップアラインメントに対してロバストではなく、その結果、かなりの部分のコンティグがPseudomolecules内でローカライズされていないことになる。最後に、これらの方法の多くは、真核生物ゲノムのドラフトに頻繁に存在する大規模なミスアセンブリを修正する能力も、ゲノムの真の生物学的差異による矛盾についての測定基準も報告していない。
 ここでは、closely relatedなリファレンスゲノムへのMinimap2 [ref.23](紹介)によるアラインメントを利用して、コンティグをPseudomoleculesに迅速にクラスター化、順序付け、および方向付けるオープンソース法RaGOOを紹介する。 RaGOOはPseudomolecules構築前に見かけのキメラコンティグを修正するオプションも提供する。最後に構造変異(SV)は、最適化され統合されたバージョンのAssemblytics [ref.24](紹介)を使用して同定され、一度に多くのゲノムの迅速な全ゲノムSV解析を可能にする。これは、リードマッピングアプローチを使用して検出することが困難である大きな挿入および他の複雑な構造変異を検出するために特に重要である。
最初に、シミュレーションデータを用いてRaGOOの速度と精度を実証し、それが2つの一般的な代替方法よりも優れていることを示す。次に、ショートリードおよびロングリードシークエンシングの組み合わせを使用して、トマトの3つの異なる野生種および栽培種について高品質の染色体規模のドラフトゲノムを作成することによってRaGOOの有用性を示す。最後に、著者らは103のドラフトA. thalianaゲノムの順序付けおよび方向付け、ならびに全ゲノムにわたる構造変異の比較によってRaGOOのスケーラビリティを実証する。これは非常に可変性の高い多数の防御応答遺伝子を明らかにした。

 

インストール

ubuntu18.04、python3.5.0環境でテストした(docker使用。ホストOS mac os10.12)。

依存

RaGOO should install on OSX and most standard flavors of Linux. RaGOO depends on Python3 as well as the following packages:

  • intervaltree
  • numpy
  • Minimap2

本体 Github

git clone https://github.com/malonge/RaGOO.git
cd RaGOO/
python setup.py install

 > python ragoo.py -h

$ python ragoo.py -h

usage: ragoo.py [-h] [-e <exclude.txt>] [-gff <annotations.gff>] [-m PATH]

                [-b] [-t 3] [-g 100] [-s] [-i 0.2] [-j <skip.txt>]

                <contigs.fasta> <reference.fasta>

 

order and orient contigs according to minimap2 alignments to a reference

 

positional arguments:

  <contigs.fasta>       fasta file with contigs to be ordered and oriented

  <reference.fasta>     reference fasta file

 

optional arguments:

  -h, --help            show this help message and exit

  -e <exclude.txt>      single column text file of reference headers to ignore

  -gff <annotations.gff>

                        lift-over gff features to chimera-broken contigs

  -m PATH               path to minimap2 executable

  -b                    Break chimeric contigs

  -t 3                  Number of threads when running minimap.

  -g 100                Gap size for padding in pseudomolecules.

  -s                    Call structural variants

  -i 0.2                Minimum grouping confidence score needed to be

                        localized.

  -j <skip.txt>         List of contigs to automatically put in chr0.

kazu@9a49f407e1fb:~/RaGOO$ 

 

 

実行方法

contigのfastaとリファレンスのfastaを指定する。

python ragoo.py spades_scaffolds.fasta GT-S.fasta

ragoo.fastaがリファレンスガイドアセンブリされたfastaナズナのflyeを使ったドラフトアセンブリの解析には10秒程度しかかからなかった。

出力

f:id:kazumaxneo:20190206140510j:plain

seqkit stats original-scaffold.fasta ragoo_output/ragoo.fasta

$ seqkit stats scaffolds.fasta ragoo_output/ragoo.fasta

file                         format  type  num_seqs      sum_len  min_len     avg_len     max_len

scaffolds.fasta              FASTA   DNA        296  133,638,000      536   451,479.7  15,055,047

ragoo_output/ragoo.fasta.gz  FASTA   DNA          8  133,667,600   50,589  16,708,450  32,673,117

user-n

8scaffoldsまで減っている。ほぼクロモソームレベルのアセンブリができているはず。

 

D-GENIESを使いリファレンスゲノムと比較してみる。

ラージゲノムにも対応したdot plot解析ツール D-GENIES - macでインフォマティクス

構造変化が起こっているようなecotypoeのデータではないので、リファレンスと全クロモソーム一致するはず。

f:id:kazumaxneo:20190206144427j:plain

大きな構造変化は見られない。うまくscaffoldingできている。SVが発生しているゲノムのデータでも試してみたい。

引用

Fast and accurate reference-guided scaffolding of draft genomes
Michael Alonge, Sebastian Soyk, Srividya Ramakrishnan, Xingang Wang, Sara Goodwin, Fritz J. Sedlazeck, Zachary B Lippman, Michael C. Schatz

bioRxiv preprint first posted online Jan. 13, 2019

 

例えば"100 tomato genomes in 100 days"で使用されています。

http://schatz-lab.org/presentations/2018/2018.11.29.NCM.TomatoGenomics.pdf