2018-10-18

レビュージャーナル要約　植物ゲノムのアセンブリガイド

　シーケンシング技術の急速な進歩と急激なコストのために、非モデル植物からの全ゲノムのアセンブリは、すぐにplant systematistsとevolutionary biologistsにとって日常的になるだろう。ここでは、ゲノムプロジェクトにアプローチする方法についての実践的なガイドを提供する、最新のゲノムシーケンシングおよびアセンブリアプローチのいくつかを要約して比較する。また、ゲノムプロジェクトに時間と資金を投入する前に行う必要がある予防措置についても強調する。

　植物ゲノムの完全なシーケンシングとアセンブリは困難な仕事として見られてきた。実際、最初の植物ゲノムであるArabidopsis thaliana (L.) Heynhのシーケンシング完了には10年かかり、約10億米ドルを要した（Goff et al、2014）。しかし、現在のDNAシーケンシング技術は、寛大な資金源を必要とせずに小規模実験室でもゲノムシーケンシングを行うことができる。例えば、高品質のA. thalianaゲノムは、標準的なラップトップ上のUSBデバイスで、1000ドル以下のコストでシーケンシングすることができ、1週間以内にデノボアセンブリが完了する（Michael et al、2017）。全ゲノムとリシークエンシングを組み合わせると、系統発生学および集団レベルの研究のために数千の核マーカーを提供することができ、ゲノムワイドの進化的および生態学的問題の調査を可能にする。
このレビューでは、まずシーケンシング前に考慮する必要のある尺度を示し、現在のシーケンシングアプローチと戦略をいくつか記述し、ゲノムアセンブリ技術の概要を説明する。この見直しで言及されたコスト見積もりは、いくつかのサービスプロバイダーからの見積問い合わせに基づいており、2017年7月から11月に行われたものである。これらの数値は時間の経過とともに減少する可能性がある。

BEFORE SEQUENCING

全ての植物のシーケンシングが可能であるわけではない。ゲノムサイズ、リピート構造、年齢、およびヘテロ接合性は、プロジェクトの実現可能性を決定する3つの主な要因である。

Genome size and complexity

植物ゲノムサイズは、0.063〜148.8Gbp（Greilhuber et al、2006; Hidalgo et al。、2017）の範囲で劇的に異なり、ゲノムサイズが増加するにつれてシーケンシングコストが増加する。事実、10Gbpを超えるゲノムはコムギ（Zimin et al、2017a、2017b）、Ginkgo L.（Guan et al、2016）、Picea A. Dietrのように少数しかアセンブリされていない。
同質倍数体、異質倍数体は、追加のハプロタイプの存在によってさらに複雑になる。したがって、比較的小さなゲノムを持つ一倍体または二倍体の個体を特定することが重要である。かなりの金額を節約できるだけでなく、下流のバイオインフォマティクス分析を簡素化する。しかし、そのような個体が利用できない場合、または倍数体が実際に標的である場合、Hi-C、オプティカルマッピング、または10×Genomics（10×Genomics Inc.、Pleasanton、California、USA）などとロングリードシーケンシングの組み合わせを考慮する必要がある。
フローサイトメトリー（図1 link）は、ゲノムサイズを決定する一般的かつ正確な方法だが、fresh な材料とバッファの最適化が必要になる（Dolezel and Bartos、2005参照）。
Royal Botanic GardensのDNA C値データベースは、種内の個体間に大きなゲノムサイズの変異が存在する可能性があるという注意書きとともに、貴重な参考データベースである（Gregory et al、2007 Eukaryotic genome size databases.）。倍数性の系統では、chromosome squash（参考）または花粉、気孔、または胞子の大きさを測定することによって倍数性のレベルを決定することが重要である（例えば、Li et al、2012,2017 link1, link2）。
ゲノムサイズに加えて、ヘテロ接合性は別の重要な考慮事項である。ショートリードショットガンシーケンシングをアセンブリする場合、ヘテロ接合領域はグラフ構造を複雑にし、ハプロタイプフェージングを困難にする。ヘテロ接合性を減少させる1つの方法は、inbred lines（近交系）またはdoubled haploids（倍加半数体例）を作製することであるが、これは時間がかかり、さらに、すべての植物を数世代にわたって自己培養したり、葯培養から再生することができるわけでは無い。裸子植物については、1世代だけの近交系には数十年がかかるかもしれないが、特定の種はシーケンシングに十分な大きなメガ配偶体の一倍体DNAを有する可能性がある。一方、いくつかのシダはintra‐gametophytic selfing（Haufler et al、2016）が可能で、世代内で完全ホモ接合体の胞子体を作ることができ、それ故、ゲノムシーケンシングで一倍体として扱うことができる。

K‐mer frequency distribution

選択された個体がゲノムシーケンシングに適しているかどうかを判別するシンプルで強力な方法は、raw Illumina シーケンシングデータ（Illumina、San Diego、California、USA）を使用してゲノムサイズ、リピート率、ヘテロ接合性を推測することである。 k-mer分布は、ゲノムアセンブリまたはシーケンシングリードの集合のような、ヌクレオチドのストリング（またはストリングのセット）内に含まれる長さkのサブ配列全てを指す。
論文図2Aは、ショットガンイルミナシーケンシングデータの仮説上のk-mer頻度プロット（K = 31）を示している（リンク）。 x軸は、所定のk-mer（例えば、ATGCTAGCTACTAGACTACTAAGCTAGCAT）が現れる回数を示し、y軸は、その頻度でユニークなk-merの数を示す。例えば、赤矢印部分では頻度が20回のk-merが500万見つかる。頻度が1に近い水色矢印のピークはシークエンシングエラーによるものである。第2のピーク（赤い矢印）がシーケンシングカバレッジを表し、これは、大部分のk-merが20回シーケンシングされたことを意味する。ゲノムサイズは、k-merの総数（曲線下の面積）をシーケンシングカバレッジで割ることで近似できる。
個体のヘテロ接合性のレベルを推定するためにk-mer頻度プロットを使用することもできる。ヘテロ接合部位由来のK-mersは、ホモ接合部位と比較してシーケンシングカバレッジが半分になり、これはゲノムカバレッジピークの中間ピークを形成する（図2B リンク）。このピークが高いほど、サンプルのヘテロ接合性が高くなる。
同様に、リピート領域からのk-merは、平均カバレッジよりもはるかに高くなり、スペクトラムプロットの右側に向かう高スペクトラムの"肩"として現れる（図2Bリンク）。
K-merプロットはJellyfishパッケージ（Marçaisand Kingsford、2011）またはKmerGenie（Chikhi and Medvedev、2014）（紹介）によって生成でき、ここから数行のRスクリプトを使用してゲノムサイズを推定することができる（チュートリアル http://bioinformatics.uconn.edu/genome-size-estimation-tutorial/）。ピークが出現するためには、シーケンス深度は少なくとも30倍以上のカバレッジがなければならないことに留意すべきである。
ゲノム中のリピートのパーセンテージおよび含量は、アセンブリ前にilluminaショットガンシーケンシングデータによっても推測できる。ゲノムサイズのわずか1％をカバーするシーケンシングデータを使い、RepeatExplorer（無料のGalaxyサーバーとして利用可能　http://www.repeatexplorer.org/、Nováket al、2013）またはTransposome （Staton and Burke、2015）などを利用する。ランダムで低カバレッジのショットガンリードのサブサンプリングからヌクレオチドの類似性と重複によってクラスターして、Repbase（http://www.girinst.org/repbase/; Bao et al、2015）のような植物リピート配列データベースでアノテーションを行い、リピート数を推定したり、closely relatedな種のゲノムから推定する方法もある。

DNA quality and quantity

DNAの量、純度、および完全性は、しばしば最終的なゲノムアセンブリの品質を決定するため、無視できない。可能な限り最良のDNAを得るために、クラシックな核酸調製プロトコールを使用することができるがグラムオーダーの出発材料が必要である（例えば、Zhang et al、1995）。 QIAGEN MagAttract（QIAGEN、Valencia、California、USA）およびBionano IrysPrep（Bionano Genomics、San Diego、California、USA）(*3)は、キットベースの代替品である。
DNAの完全性は、一般的なアガロース電気泳動で大まかに可視化できるが、DNA断片サイズについてより精度の高い情報を得るには、パルスフィールド電気泳動またはAgilent TapeStation（Agilent Genomics、Santa Clara、California、USA link）を使う。
塩およびタンパク質が混入するとライブラリー調製中の酵素活性が阻害される可能性が高いため、DNA純度も高くなければならない。 DNA、タンパク質、および塩が260nm、280nmを吸収するので、260 / 280nmと260 / 230nmの吸光度を測定できるNanoDrop（Thermo Fisher Scientific、Waltham、Massachusetts、USA）または他の分光光度計を試料純度の評価に使用する必要がある。一般的な経験則では、精製されたDNAの260/280値は1.8-2.0の間で、260/230は2.0-2.2の間でなければならない。
分光光度法はDNAの純度を決定するのに有用だが、シーケンシングのトータルDNAの定量や、精製したシーケンシングライブラリの定量には適していない。 Qubit Broad Range（Thermo Fisher Scientific）または他の二本鎖DNAの蛍光に基づく定量が、全ゲノムDNAの好ましいDNA定量法である。

SEQUENCING PLATFORMS

イルミナ

イルミナのプラットフォームはゲノムシーケンシングの主役となっており安価で低エラー率で大量のシーケンシングデータを作成することができる。現在、HiSeq4000（*1）の1レーンはおよそ2500ドルでペアエンドの150ヌクレオチドを90〜100Gbp出力する。しかし、リード長は短く、HiSeqでは150ヌクレオチド、MiSeqでは300ヌクレオチドという欠点がある。さらに、ライブラリのインサートサイズは、通常、800ヌクレオチドを超えない。したがって、デノボシークエンシングで良好なアセンブリを達成するためには、追加のscaffoldingアプローチが必要になる。

BGISEQ

中国の深センにあるシーケンシングプロバイダとバイオテクの企業であるBGIは、最近、独自のシーケンサBGISEQ-500を発表した。このシーケンサーは、Complete Genomicsのナノボール技術に基づいてシーケンシングクラスターを作成する。これはIlluminaで使用されるブリッジ増幅とは異なる。 BGISEQ-500の仕様は、類似のリード長、スループット、エラーレート（Goodwin et al、2016; Mak et al、2017; Huang et al、2017 link2）でIllumina HiSeq2500に匹敵することが報告されている。しかし、このプラットフォームはまだ広く採用されておらず、BGISEQ-500の賛否両論はまだ決定されていない。

PacBio

上記のプラットフォームはショートリードの情報しか生成しないが、PacBioやOxford Nanoporeなどの１分子シークエンシングでは、増幅することなく長いDNA分子（> 10 kbp）を読むことができる。したがって、植物ゲノムのデノボシーケンシングに非常に有用である。しかし、現在の１分子シークエンシング技術はすべてエラー率が10〜15％と高く、イルミナよりも1塩基当たりの価格が高いという欠点がある。 1つのPacBio Sequel SMRTセル（2.0ケミストリおよび10hムービー参考）のコストはおよそ1250ドルで、5Gbpのロングリードデータ（> 10-20kbp）が得られる。 PacBioのみのアセンブリには少なくとも40倍のカバレッジが推奨されていることを考えると、1Gbpのゲノムには10,000ドルの費用がかかる。 DNA品質、特にフラグメントの長さは、PacBio（およびNanopore）シーケンシングには非常に重要であることが強調されるべきである。

オックスフォードNanopore Minions

Minion（読み:ミナイオン参考）は、リード長、スループット、およびエラーレートに関してPacBioと似ているが、シーケンサ全体が可搬性の高いUSBサイズのデバイスにパッケージされている。可搬性はすべてのシーケンサーの中で際立っている。必要なのは中程度のモダンなラップトップで、ライブラリの準備はわずか10分で完了する。このため、Minionsは、国際宇宙ステーション、北極および他の遠隔地の研究機関で使用されている。 Solanum pennellii Correll（1-1.1 Gbp）のゲノムは、最近、Solanum pennellii Correll（トマトの野生種）のゲノムがNanoporeデータのみでアセンブリされた（Schmidt et al、2017 pubmed）。Michael et al （2017）は、Arabidopsis thalianaゲノム（約135Mbp）が、ただ1つのMinionフローセルによってシーケンシングされ得ることを報告した（pubmd）。したがって、DNAバーコード、遺伝子型、または植物ゲノム全体を現場でリアルタイムでシーケンシングすることが可能であり、「モバイルゲノミクス」の時代が近づいてきているかもしれない。しかし、現在、研究室外で高品質のDNAを効率的に抽出する方法がハードルになっている。
Oxford Nanoporeはスケーラビリティとライブラリ作成方法の両方において急速に進化している。例えばGridIONx5システムは、統合された計算能力を持つ最大5つのMinionサイズのフローセルを同時に実行することができる（*2）。また、相補的DNA分子の両鎖を引き続いてシーケンシングする（1D² sequencing 参考）によって正確さが改善される。

GENOME ASSEMBLY

ゲノムアセンブリはジグソーパズルを解決するようなものだが、非常に難しいものである。 de Bruijn graph（DBG）またはOverlap-Layout-Consensus（OLC）に基づく2つのアセンブリ方法がある。 OLCアセンブリ方法は、最初にすべてのシーケンシングリード間のオーバーラップを検出し、そこからコンティグをレイアウトするため文字列グラフが作成される。次に、OLCは、各コンティグを構成するすべてのリードを取り、コンセンサス配列を作成する。 PacBioまたはNanoporeのロングリードは、Canu（Koren et al、2017）、FALCON（Chin et al、2016）、miniasm（Li、2016）などのOLCアセンブラによって最もよくアセンブリされる。
特に、ロングリードを利用することにより、FALCON-Unzip（Chin et al、2016）は、潜在的に個々のハプロタイプをフェージングしてアセンブリでき、高度にヘテロ接合のゲノムに特に有用である。一方、OLCは、短いシーケンス間ではオーバーラップが正しくない可能性があり、数十億のリード間のペアごとのオーバーラップを計算することが計算上不可能であるため、ショートリード用には設計されていない。
DBGは、大量のショートリードデータを処理するのに適している。 DBGはゲノムアセンブリの問題を解決するために直観的ではないアプローチを取っている。その根拠は、k-mers間の接続はずっと簡単に構築でき、結果として得られるde Bruijn graphを横断してコンティグを導くことができることである。 SOAPdenovo（Luo et al、2012）、ALLPATH-LG（MacCallum et al、2009）、Velvet（Zerbino and Birney、2008）、Platanus (Kajitani et al、2014)、ABySS（Jackman et al、2017）などの多くのDBGベースのアセンブラが開発されている。）
大きなゲノムについて、PacBioまたはNanoporeでシーケンスカバレッジを十分に得ることは必ずしも可能ではないが、安価なショートリードデータを使いハイブリッドアセンブリアプローチを採用することでコストを削減できる。これはMaSuRCA（Zimin et al、2017b）（紹介）で行うことができる。これは、最初にショートリードを「スーパーリード」に拡張し、これらのリードを使用してロングリードを「メガリード」に変換する。これらの処理されたリードは、それからOLCによってアセンブリすることができる。いくつかのギガベースクラスの植物ゲノムがこのようにアセンブリされた（Zimin et al、2017b link、2017c link）。

GENOME SCAFFOLDING APPROACHES

ゲノムアセンブリを改善するためには、コンティグの向きと順番を決めてscaffoldsにするため長距離情報を得ることが重要である。伝統的に、これは、物理地図の作成、またはバクテリア人工染色体（BAC）ライブラリを構築し、シーケンシングによって行われてきたが、いずれも面倒でコストがかかる。幸運なことに、scaffoldsをはるかに費用対効果の高いものにする、巧妙なライブラリ作成方法と新技術が登場してきている。

メイトペアライブラリ

このライブラリー作製法は長いDNA断片（> 1kbp）を環状に自己連結し、遠端を一緒にする。次いで、環状DNAを切断し、接合部を含む短い断片を選択する。これらの断片から、ゲノムの2つの遠い部分を、標準的なイルミナペアエンドシーケンシングによってシーケンシングできる。しかしながら、メイトペアライブラリは構築が容易ではなく、多量の高分子量DNAを必要とし、通常は複雑性が低い（すなわち、多数のduplicatesを有する）ため、シーケンシング出力を浪費する。 PacBioとNanoporeのリード長が定期的に10〜30 kbpの長さを超えていることを考えると、イルミナのメイトペアライブラリーはすぐに好まれなくなる。

Hi-C

真核生物の細胞では、核DNAはヒストンの周りを包み込み、複雑な三次元クロマチン構造に詰め込まれる。この構造内では、近接してパックされた2本のDNAストリングがクロマチンの2つの離れた領域から来ている可能性があり、そのような空間的関係を利用して長距離配列情報を作成することができる（Liu and Weigel、2015 pubmed）。Hi-C法はまず、in vivoでDNAをヒストンにクロスリンクさせて、クロマチン立体配座を保存する。次いで、DNAを消化し、空間的に近接しているが、物理的に遠いDNA断片を連結させる。得られたライブラリーはIlluminaプラットフォームでシーケンシングすることができる。 Hi-Cは、染色体レベルのゲノムアセンブリを作成できることが示されている - ドラフトアセンブリと予想される染色体数を考慮することで、Hi-C scaffolderは統計モデルを使用してコンティグを個々の染色体に分割する。さらに、天然の植物染色体は外来DNAとクロスリンクしにくいため、汚染配列を特定し排除することができる。
Hi-Cの最も顕著な特徴は、高分子量のDNAを必要とせず（クロスリンク、消化、およびライゲーションがin vivoで行われる）、DNA抽出が難しい材料に対する解決策を提供していることである。
米国カリフォルニア州サンタクルーズのDovetail Genomicsと米国シアトルのPhase Gomomicsは、Hi-Cシーケンシングとスキャフォールディングの商用ソリューションを提供している（多くの場合、1万〜2万米ドルのコスト）。
Dovetail Genomicsには、シカゴライブラリーと呼ばれるHi-C変種もある。In vivoでのクロスリンクの代わりに、この方法は、外来のヒストンをDNA抽出に適用してin vitroでクロマチン構造を再形成する。In vivo Hi-Cより短いインサートを生成する。近年、In vivo Hi-Cと In vitro Hi-Cはレタス（Reyes-Chin-Wo et al、2017 link）、オオムギ（Mascher et al、2017 link）、アマランス（Lightfoot et al 、2017 link）、キノア（Jarvis et al、2017 link）などに適用されている。

BioNano optical mapping

オプティカルマッピングの目的は、ゲノム制限酵素地図を作成し、それによってコンティグをscaffoldsにするためのバックボーンを提供することである（Chaney et al、2016）（参考HP）。これは超高分子量DNA（> 150 kbp）から始まり、一本鎖エンドヌクレアーゼを使用して特定の認識部位にニックを形成する。次いで、蛍光ヌクレオチドがニックにされた部位それぞれに組み込まれる。ラベリングパターンを視覚化するために、DNAをチップ上に適用し、各分子がナノチャネルに入り、線状になる。蛍光標識間の間隔は、正確かつ高スループットの様式で画像化することができ、したがって、ゲノム全体の制限地図の構築を可能にする。
制限酵素地図は、ゲノムアセンブリのin silico消化と対にされ、scaffoldingおよびアセンブリの修正を可能にする。特に、複数の酵素を使用して、別々であるが相補的なオプティカルマップを生成することができる。「two enzyme」アプローチは、以前の技術的制限だった反対の鎖上の近くの制限酵素認識部位がDNA分子を破壊することを緩和する。トウモロコシ（Jiao et al、2017）、ガーデンアスパラガス（Harkess et al。、2017）、およびOropetium Trinを含むいくつかの高品質植物ゲノムが近年スキャフォールドおよび改良されている。

10× Genomics

10×Genomicsの中心には、Chromiumマイクロ流体コントローラがある（参考HP）。このプラットフォームは、トースターに似ており、入力ゲノムDNAを油滴（1滴あたり1ダースまたはそれ以上のDNA分子）に大量に分配することができ、その中でライブラリの準備が行われ、重要なことに各パーティションに固有のバーコードが与えられる。同じバーコードのリードは、ほんの少数のDNA分子のうちの1つに由来することができるので、長距離情報は、生物情報学的に推定され、「リンクされた」リードを生成できる。さらに、同種のDNA分子は、同じ液滴に含まれる可能性は低いので、各ハプロタイプはそれ自身のバーコードを受け取り、識別することができる。高度にヘテロ接合体または倍数体の個体については、10×ゲノミクスリンクリードは、フェージングゲノムを潜在的に提供する可能性がある。他の多くのscaffoldingアプローチと同様に、DNA分子の長さは長距離情報の質を決定する。しかし、10x Genomicsテクノロジーの利点は、1ngの入力DNAしか必要としないことと、Hi-Cまたはオプティカルマッピングよりもより低コストにロングレンジの情報を得られることである（10xライブラリー１つに約1400米ドルかかる）。

Next steps: Assembly validation and annotation

次に必要なステップは、遺伝子、リピートエレメント、および他の調節領域と非コード領域のアノテーションを行うことである。アノテーションは、アセンブリの完全性を判断する客観的な手段として使用できる。 BUSCO（Simãoet al、2015）は典型的にシングルコピーで存在する遺伝子を同定する有用なツールである（紹介）。
アセンブリの完全性を検証した後、MAKER-P（Campbell et al、2014）のような植物に合わせたゲノムワイドアノテーションツールを使うことで、いくつかのツールの遺伝子とリピートのアノテーションを自動的に実行して統合することができる。

DISCUSSION

最近、Paajanen et al （2017）は、Solanum verrucosum Schltdlのゲノムをアセンブリするために、上記の方法のほとんどすべてを（Nanoporeを除いて）適用している(link)。これは良いベンチマークリファレンスとして使用することができる。一般的な戦略は、可能であればロングリード（PacBioまたはNanoporeによる）を生成することであり、これは完全にショートリードよりはるかに優れたアセンブリを提供する。推奨カバレッジは少なくとも40〜50倍である。 500-Mbp、1-Gbp、5-Gbpゲノムの場合、これはおおむねそれぞれアメリカドルで5000ドル、10,000ドル、50,000ドルに相当する。
ショートリードとロングリード両方を使用するハイブリッド手法は、より大きなゲノムで使用することができる。 5Gbpゲノムでは、100×Illuminaおよび20×PacBioカバレッジ生成にはおよそ35,000米ドルかかる。これはPacBioのみのアプローチよりも大幅に安価だが、アセンブリ品質が低下する可能性がある。資金が限られているが高分子量のDNAが得られる場合、Illuminaシークエンシングを用いた10x Genomicsライブラリーは、PacBioやNanoporeと同等のゲノムを得ることができ、コストは低くなる。この場合、500-Mbpのゲノムはおよそ4000米ドル（ライブラリー作成では1400米ドル、シーケンシングでは2600米ドル）、1Gbpゲノムでは約5800米ドル（ライブラリ作成では1400米ドル、シーケンシングでは4400米ドル）がかかる。
ドラフトゲノムには通常何千ものコンティグが含まれる。目的によっては、さらなるscaffoldingは必要ないかもしれない。例えばgene spaceに関しては、そのようなドラフトゲノムからもかなりよく捕捉可能で、phylogenyを推論するために、または遺伝子ファミリーの進化を調べるために容易に使用することができる。一方、ドラフトゲノムは、シンテニー分析やゲノム構造の進化の検討には適していない可能性がある。 Hi-Cとオプティカルマッピングは、ゲノムドラフトを染色体レベルのアセンブリにする可能性があるが、それには追加で10,000〜20,000米ドルが必要になる。
現在、いくつかの国際的なコンソーシアムが植物ゲノムを系統樹全体に広範囲にシーケンシングすることを目指している。 The 10,000 Plants Genome Sequencing Projectまたは10KPは10,000の植物および藻類をシーケンシングする予定であり、BGISEQ-500プラットフォーム（Cheng et al、2018）でBGIで行われる予定である。 The Open Green Genomes Initiative（OGG）は Joint Genome Instituteからfundingを受け、系統発生的に重要な植物に焦点を当て数十の高品質のリファレンスゲノムを生成しようとしている（https://jgi.doe.gov/csp-2018-leebens-mack-open-green-genomes-initiative/）。 10KPとは異なり、OGGはPacBioをシーケンシングプラットフォームとして組み込んでいる。これらの取り組みの両方がオープンデータの理念に従っていることに注意することが重要である。したがって、あなた自身のシーケンシングアドベンチャーに着手する前に、10KPとOGGで確認することを勧める。彼らはすでにあなたが必要なものを持っているかもしれない！