はじめに
この記事はレビュー論文の要約です。チェックリスト、または思考を整頓するガイドとして使ってください。ただし、この要約で論文を読んだことにはなりません。時間が許す限り原著論文を読むことをお勧めします。review articleは各段落が一般論で構成されており、そのぶん読みやすくなっています。毎日読んでいれば綺麗な英語も身につくでしょう。
Abstract
長い間、ゲノムシークエンシングプロジェクトはモデル生物に限定されており、実施するには大規模なコンソーシアムの協調的な努力が必要であった。ハイスループットシーケンシング技術の急速な進歩とバイオインフォマティクスツールの並行した発展は、この分野の民主化を促した。現在では選択した任意の生物のde novoドラフトゲノム構築が、生態と進化(eco‐evolutionary)および保全の共同体における個々の研究グループの手の届く範囲内にある。そのような目標のために費やされるかなりの努力とコストを考えると、重要な第一ステップは、手元の生物学的問題に対処するためにゲノム配列が必要かどうかを徹底的に検討することである。一旦この決定が下されれば、ゲノムプロジェクトはその生物およびゲノムドラフトの品質に関して慎重に計画せねばならない。ここでは、この分野の最先端技術を簡単に見直し、大規模かつ複雑なゲノムを中心にゲノムシーケンシング、アセンブリ、アノテーションに関するワークフローを段階的に紹介する。このチュートリアルでは、保全遺伝学の背景を持つ科学者を対象としているが、より一般的には、全ゲノムシーケンシングプロジェクトに携わる研究者にとって有用な実践的指針を提供する。
オーサーらは脊椎動物ゲノムのアセンブリを経験したバックグランドを持つ。この論文はNGSの包括的レビューではなく、スコープをlarge genomeのシーケンシング解析に限定している(RNA seqやバクテリアゲノムのアセンブリについては議論しない)。自然保護、種の保護の分野にもゲノムシーケンシング解析が広がっており、本論文は、その保護の観点で、モデル生物よりも非モデル生物のゲノム解析に重きを置いて記述されている。
本文要約
Basic considerations
ゲノムアセンブリはリソース、時間、経験を必要とするチャレンジングな問題である。以下の点について慎重に検討しなければならない。
- そもそもゲノムシーケンシングが必要か?ゲノム配列は単なるリソースであり、conservation biologyなどの分野では役に立たないケースも多い。
- ゲノムアセンブリを行なっても、大きなファミリーを構成しているコピー遺伝子や、進化スピードの早い遺伝子は、最終的なドラフトアセンブリでもほとんど配列として表現されていない可能性がある。決定するには、別の手法を並行して使用したり、BACなどにクローニングして個別にシーケンシングする必要がある。
- ターゲットの領域が決まっているなら、そこだけPCR増幅して次世代シーケンス解析することで、低コスト且つ高いカバレッジでシーケンスすることができる。時間やコストも大きく削減できる(例 Wang et al., 2012)。Box 2. Before you startに考慮するべきこと一覧が挙げられている(box2 論文リンク)。
ゲノムをシーケンスするとはどうゆうことか?
ドラフトゲノム配列には全クロモソームの全塩基配列が表現されているのが理想的であるが、実際には以下の理由からゲノムシーケンスのコンセプトに対して大きな矛盾、齟齬が存在している。
- ゲノム配列には個体ごとにバリエーションが存在する。よってある1つの種に対する1つの真のゲノム配列というものは存在しない。
- 2倍体(2n)生物のゲノムには、相同染色体間にヘテロ接合性のポジション、indel多型、コピー数変化、小規模なゲノムリアレンジメントが存在する。これも真のゲノム配列を定義することを困難にしている。
- 1つの個体の特定の細胞群だけシーケンシングしても、体細胞変異による後天的変異が一定の確率で起こり得るため、これもゲノムにバリエーションを引き起こす。
- 2倍体以上のポリプロイドの種では、ゲノムアセンブリは初めから染色体のコンセンサス配列として表現されている。大半のショートリードシーケンサーでは、ハプロタイプのバリエーションは捉えられない。
- セントロメアのヘテロクロマチン領域の大半や、テロメア、低複雑度で長い繰り返し領域のシーケンスを決定することは、ヒトやマウスなど巨大プロジェクトでも困難である。
- ゲノムアセンブリにはエラーが存在し得る。例えばシーケンスエラーだったり、シーケンスブロックの順序の誤りなどが挙げられる。
- ゲノムアセンブリは一連のアセンブリヒューリスティックの結果として得られた結果にすぎないので、このデータをworking hypothesis(作業仮説 *1)にし、さらなる研究の基礎として活用すべきである。
- 1-7より、ゲノム配列が決定されるということは、当該の種のコンセンサスの配列が決定されることを意味する。
ゲノムシーケンシングとアセンブリの原則
- 現在、大半のゲノムプロジェクトはショットガンシーケンシングによって行われる。最初にゲノムDNAはランダムカットされ、所定のサイズ分布に断片化される。断片化したDNAからライブラリが作成され、シーケンスされる(論文図2)。
- 得られたシーケンシングデータは、適切な前処理を受け、洗練されたコンピュータアルゴリズムによってアセンブリされcontig配列になる。De novoアセンブリにはシーケンス断片間の十分なオーバーラップが必要であり、そのため、高いシーケンシングカバレッジ(またはリードデプスとも言う)でシーケンスが行われる。contig配列を繋げ、より長いscaffolfds配列が作成される。
ゲノムシーケンシング
- 最近(2014年)Finishした全ゲノムシークエンシングプロジェクトから判断すると、従来のサンガーシーケンシング(~1kb)とRocheの454シーケンシング(~800bp)からIllumina HiSeq(現在は通常150 bp)やSOLiD(通常50 bp)(SOLiDは既に販売停止)への高スループットシーケンシングへの移行が顕著である。
- Pacific Biosciences(最大5 kb)、IonTorrent(約500 bp)、Oxford Nanopore(論文では記載なし)など、より長いリードのシーケンシング技術が市場に参入している。
- 最近の研究では、異なるリード長のデータといくつかの異なるシーケンシングプラットフォームとの組み合わせによるアセンブリ方法が報告されている(Koren et al., 2012)。このようなハイブリッドアセンブリが常に単一のデータによるアプローチより優れているかどうかは依然として未確定だが、各方法の欠点が相殺されるため、この戦略は直感的により優れている。
- 従来のBACクローン単位でのサンガーシーケンシングでは、かなり限られたカバレッジでも大きな問題にはならなかった。しかし、ショートリード技術のみを使用する場合、高いリードカバレッジが必要になる。データが少なすぎるとアセンブリが断片化し、アノテーションやバリアントコールなどのダウンストリームアプリケーションで深刻な問題が発生する。
- アセンブリは、通常、大量のペアエンドのショートリードデータから始める(ロングリードだけのアセンブリ技術も存在する)。続いてコンティグをスキャホールドに融合させるためには、3〜40kbの長いインサートサイズを有する追加のライブラリーを生成する必要がある。どのような配列データが各ライブラリーのタイプおよびインサートサイズに必要であるかは、ゲノムのサイズおよびリピート含有量、ヘテロ接合性の程度およびアセンブリー品質(Sims et al、2014)を含む多くの要因にに依存するため、シーケンシングプロジェクトごとにパラメータを固有に決定する必要がある。
- 哺乳類ゲノムの大まかなガイドラインとして、45xカバレッジのペアエンドショートリード、45xカバレッジのミドルインサートサイズのライブラリ(3-10kb)、1-5×カバレッジのラージインサートサイズのライブラリ(10〜40kb)が提案されている(Nagarajan and Pop 2013 pubmed)。
- シーケンシングエラーの絶対数が増加するためカバレッジが高すぎることも問題になり得ることに注意する。著者ら自身の経験によれば、ショートリードのペアエンドライブラリの100xから50xへのカバレッジのダウンサンプリングは、アセンブリのいくつかのステップを大幅に改善しうる。
- 上記のパラメータを考慮するには、ゲノムサイズ、シーケンスエラー率、リピート含有量およびゲノム重複に関する基礎知識が必要になる。プロジェクトの開始時に目的の種の情報が得られない場合は、まずシングルエンドまたはショートインサートシークエンシングを使用して小規模なパイロットスタディを実施することを勧める。上記のパラメータは、k-merカウントアプローチを用いて近似することができる(Marçaisand Kingsford 2011; http://josephryan.github.com/estimate_genome_size.pl Estimate genome size)。
- k-merカウントの実行および解釈方法に関する情報は、seqanswersなどのWebフォーラムで見つけることができる。一般に、ゲノムのリピート含有量が高い場合、正確なアセンブリのために、より長いインサートサイズのシーケンスデータが必要となる。ゲノムサイズの見積もりは、オンラインデータベースでも利用できる(box2 論文リンク)。
ウエットの作業
ゲノムシーケンシングのウェットの作業はシークエンシングセンターに委託されることが多いので、この論文では、プロジェクトの計画段階で考慮すべき重要なライブラリー作成の基本的な手順と、下流の分析手順について、非常に簡単にだけ触れる。
- 個体のヘテロ接合性部位は、アセンブリに悪影響を及ぼす。高度に倍数性の種では、アセンブリは特に困難であり、特別に調整されたアセンブリパイプラインを必要とすることがある(Schatz et al、2012)。利用可能な場合は、近親交配の個体、単為生殖、または雌性発生後の子孫を使用することが一般的に推奨されている。個体の身元、年齢、性別、サンプリング時間および正確な場所など、将来の参照のために重要なメタデータでなければならない(Genome 10K Community of Scientists 2009 pubmed)。
- シーケンシングに使う組織: エネルギー的に活性な組織(筋肉など)は、高い割合のミトコンドリアDNA(mtDNA)が含まれ、アセンブリステップに問題を引き起こすリスクがあるため避けるべき。ターゲット生物以外の非標的DNAの度合いが高い腸や皮膚などの組織も避けることが推奨される。
- アセンブリ前にmtDNA配列リードを除去し、除去したリードはミトコンドリアゲノムのデータとして残しておく。それ自体が保存遺伝学にとって重要な情報を提供するかもしれない。ミトコンドリアゲノムを決めるには、除去したデータのうちほんの少しだけ使いアセンブリを行う。
DNAの品質
- 全長ゲノムシーケンシング、特にロングインサートサイズのライブラリーの場合、十分な量の高品質で無傷の非分解DNAが必要になる(Wong et al、2012)。複数ライブラリーを使用する全ゲノム解析では、starting materialとして約1mgのDNAが必要になる(ショートインサートのペアエンドライブラリの場合約6μg、2-10kbライブラリーの場合約40μg、> 20kbライブラリーの場合約60μg: 論文執筆時点の話) 。
- 高品質のDNAを大量に取得することが不可欠であるが、これは保全上の懸念がある多くの種にとって大きな障害となりうる。捕獲可能な動物が利用可能である場合、しばしば高品質DNAの供給源として利用できるが、そのような供給源から同定されたゲノム変異は野生集団を代表するものではないことに注意する。 DNAサンプルを提出する前に、高解像度ゲル(例えばパルスフィールド電気泳動;試料は典型的に> 100kbの断片を示すはずである)上でその完全性を調べるべきである。
ライブラリの準備
- 現在のライブラリ調整のほとんどの技術は無視できない回数のPCRに依存した方法のため、無視できない数のduplicartion readsが発生することに注意する。ただし、カバレッジが非常に高い場合、偶然全く同じ部位を読んだリードが二重に発生する可能性があり、これはPCR duplicartionと区別できない(*2)。
- duplicartion readsには付加価値がなく、カバレッジベースのクオリティチェックを損なう可能性があるため、アセンブリ前に削除する必要がある。重複は一般的に、ショートインサートサイズのライブラリー(<500bp)の数パーセントを構成する。ロングインサートサイズのライブラリー(> 10kb)では95%を超えることがある。
- 別の課題は、ペアエンドライブラリのインサートサイズの決定である。一般的に0.2〜40kbの範囲の大きさで複数使い、短いインサートサイズのライブラリーのカバレッジが多いことが望ましい(Gnerre et al、2011)。 20kbを超えるインサートサイズは、アセンブリの最終的な連続性に大きな差異をもたらすが、高品質で生産するのは容易ではなく、現在多くのシーケンシングセンターで制限因子となっている。
- もう一つの重要な問題はペアエンドシーケンスのリードの向きである。使用される技術と元のDNA断片に関連して、リードは内向き(→ ←;例えばイルミナペアエンドシーケンシング)または外向き(← →;例えばイルミナメメアイトペアシーケンシング)がある。向きが異常なペリードは、予想外に短いインサートサイズ由来する可能性がある。また、異常な向きやサイズのメイトペアは、隣接していないゲノム領域のキメラであることが多い。
- このようなアーチファクトデータは、アセンブリ前にフィリタリングで除く必要がある、しばしば、トリミング後に組み立てるために使用可能な独特の読み取り対のほんの一部しか残さない。データを正しく処理するためには、データを扱う際に常にライブラリのことを分かった上で('library aware')作業する必要がある。
データのマネージメント(重要 *3)
- 通常のゲノムシーケンシングプロジェクトで生成されるデータの量は驚異的である。 100×カバレッジを有する脊椎動物のゲノムでは、数百ギガバイトのオーダーのデータファイルになる。アセンブリ工程中、テンポラリファイルはテラバイト境界を容易に越える。よってプロジェクトの開始時には、すでに適切なデータ管理とバックアップ戦略が取られていなければならない。多くの大学は、データ保管施設を含む地方または国のコンピューティンググリッドに接続されており、可能であればこれらを活用することが強く推奨される。コンピューティングインフラストラクチャで働くバイオインフォマティクスの専門家は、生物学の研究者とコンピューティンググリッドシステムの専門家との間の重要なリンクを提供する(Lampa et al。2013 pubmed)。このようなコラボレーションは、プロジェクトの計画段階で既に確立されているはずである。
- シーケンシングセンターは、多くの場合、データ分析とアセンブリの支援も提供する。しかし、それらの自動化パイプラインは、非モデル生物のデータには最適化されず、保存生物学の観点からは有用ではない可能性がある。したがって、プロジェクトの開始前にどのような支援が施設によって提供されるかを明示的に議論することは極めて重要である。より一般的には、アセンブリの計算ステップを実行するのに十分な専門知識がコア研究グループに存在するかどうかを検討する必要がある。大規模シーケンシングデータの大部分のデータ処理およびゲノム解析は、UNIXベースのオペレーティングシステムを実行する高性能コンピューティングクラスタ上で実行される。全ゲノムシーケンシングデータを処理するには、バイオインフォマティクスの専門家である必要はないが、UNIX環境とコマンドラインソフトウェアに関する十分な基本知識、シェルスクリプトの作成、生物学的データ分析のための一般的なスクリプト言語(PerlやPythonなど)を適用できる必要がある。
アセンブリ前の作業
- アセンブリに先立って、シーケンシングデータの品質、GC含量、リピート存在量または重複した読み取りの割合を評価する必要がある。要約統計を提供するFastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc)のようなツールは、有用な出発点である。
- PCR dplicationによる低品質データのトリミングは、様々な異なるソフトウェアおよびスクリプト(例えば、ConDeTri; Smeds andKünstner 2011)を用いて行うことができる。 k-merカウントアプローチ(例えばSOAPdenovoパイプラインで適用される)を使用したスタンドアロンのエラー修正は、多くのデータセットの代替として有用である。ただし、品質フィルタリングの最適な厳密性は、個々のプロジェクトと対象となるアセンブリパイプラインに固有のものであることに注意する。
- アセンブリパイプライン内でトリミングとエラー訂正が実行されるALLPATHS-LG(Gnerre et al、2011)のような一部のアセンブラでは、トリミングしたデータでなくオリジナルのシーケンシングデータを使う必要がある。
- ライブラリーのプライマーおよびベクター配列は(シーケンシングマシンがそれらを除去したと主張したとしても)データ中に残存する可能性が高い。単純なスクリプト(cutadapt; Martin 2011)で除去することができる。また、Illuminaシークエンシングでは、シーケンスクオリティスコア較正のために、PhiXファージ由来のDNAをシークエンシングに加えることが多い。そのような豊富な汚染配列を除去しなければ、(核ゲノムと比較して高いカバレッジのために)アセンブリプロセスが中断され、キメラおよびコンタミネーションのコンティグが生じる可能性がある。
- raw データから既知のベクター汚染を除去する最も簡単な方法は、ショートリードアライナー(BWA; Li and Durbin 2009)を使用し、汚染配列にマッピングされる全てのリードを捨てることである。
De novo assembly
- ゲノムアセンブリのツールは様々存在するが、速度、スケーラビリティ、最終配列の品質(Miller et al、2010; Earl et al、2011; Narzisi and Mishra 2011; Bradnam et al、2013)の性能において大きく異なっている。アセンブリ方法の中には他の方法よりも明らかに優れているものもあるが、特定の状況でどのツールが最も適切かを予測することは現在困難である。
- すべてのアセンブリプロジェクトは、生成されたデータ構造、サイズ、塩基組成、リピート含有量、多型のレベルなどの点で固有である。
- ショットガンシーケンシングデータのデノボアセンブリに利用可能なソフトウェアが多数あり、常に新しいプログラムがリストに追加されている。いくつかのアルゴリズムはミス・アセンブリを最小限に抑えることに焦点を当てているが、他のアルゴリズムは主に連続性(contiguityのこと)を改善することを目的としている(時には精度を犠牲にして)。
- ほとんどのアセンブリアルゴリズムは、ライブラリサイズの分布に従って最適に実行されるため、プロジェクト計画やシーケンシングの段階で既にアセンブリ戦略の選択を検討することが重要になる。主な文献やアセンブリソフトウェアのウェブサイトの情報、さまざまなウェブフォーラムが、最新のディスカッションや他の研究者の経験を共有するための入り口として役立つ(box2 論文リンク)。
- 従来のSangerシークエンシング(例えばCeleraアセンブラ、ArachneおよびPCAP; Batzoglouら2002; Huangら2003; Denisov et al、2008)またはRoche 454シークエンシング(例えば、 Newbler)は、オーバーラップレイアウトコンセンサス(OLC)と呼ばれるアセンブリアプローチを使用している。OLCアルゴリズムは、IlluminaまたはSOLiDデータでは、一般的に計算量が多すぎるとみなされる(too computationally intensive)(時間的に不利)。それでも、Edena(Hernandez et al、2008)、SGA(Simpson and Durbin、2012)、FERMI(Heng Li、2012)などのいくつかのアセンブラはOLC戦略を追求している。
- ショートリードのデノボアセンブリのほとんどの戦略は、extension-basedの方法とDe Bruijn(またはオイラーの)グラフアルゴリズムの2つのクラスに大別することができる(Nagarajan and Pop、2013)。extension-based methodsのアセンブラの SSAKE(Warren et al、2007)やJR-Assembler(Chu et al、2013)はメモリと計算時間両方で計算上非常に効率的だが、シーケンシングエラー、反復領域および高レベルのヌクレオチド多型(Chu et al、2013)に非常に敏感に影響される。
- 現在、最も一般的に使用されるアプローチはDe Bruijnグラフに基づいている。リードは長さkのシーケンリースリードの部分文字列k-mersに変換され、 k-1 merを共有するときにリンクされグラフ(ネットワーク)のノードを形成する。 SOAPdenovo(Luo et al、2012)、ALLPATHS-LG(Gnerre et al、2011)、ABySS(Simpson et al、2009)、Velvet(Zerbino and Birney 2008)などの高度に使用されたアセンブリソフトウェアは、すべてDe Bruijnグラフアルゴリズムを採用している。
- 異なるアルゴリズムの特徴を組み合わせ、複数のシーケンシング技術のデータを利用する ‘hybrid’なアルゴリズムも存在する: Atlas(Havlak et al、2004)、Ray(Boisvert et al、2010)、MaSuRCA(Zimin et al、2013) 。
- 一般的には、いくつかの異なるアセンブリ方法をテストし、現在の特定のデータに最も適しているものを評価することが推奨される。
- ドラフトゲノム構築の過程では、数回のアセンブリ、評価、パラメータ調整が繰り返されるiterativeなプロセスとして扱われなければならない。さまざまなアセンブリアルゴリズムとソフトウェアのより包括的なレビューについては、例えば、Miller et al、2010 pubmed; Nagarajan and Pop 2013 pubmed を参照。
- 最初のコンティグ構築後、コンティグをScaffoldsに結合するために、ロングインサート(mate-pair、fosmid-end、jumping)ライブラリー(Zhang et al、2012)からのペアリード情報を用いるのが一般的である。
- 例えば短い低複雑度の領域(low-complexity regions)をブリッジするために、追加のショートインサートペアエンドライブラリはしばしば有用である。
- コンティグ間のギャップの長さは予想されるインサートサイズから推定され、通常Nsのストレッチで満たされる。Scaffoldingステップは、一般的に使用される多くのアセンブリプログラムにすでに含まれているが、SSPACE(Boetzer et al、2011)やBESST(Nystedt et al、2013)などの独立したアプリケーションもある。
- Scaffoldingで生じたNsは、元のペアエンドシーケンシング情報を使用して、GapCloser(Li et al、2010)、GapFiller(Boetzer and Pirovano、2012)、iMAGE(Tsai et al、2010)などのソフトウェアで除去できる。最近では、例えばPacBioなどのロングリードシーケンシングデータを使う方法も出現している(English et al、2012)。
- アセンブリソフトウェアを選択する際には、シーケンシングデータの量と使用可能な計算リソースの両方を考慮することが重要になる(Schatz et al、2010a)。 SOAPdenovoやALLPATHS-LGなどのDe Bruijnグラフメソッドは、一般に大量の計算用メモリ(RAM)を必要とする。哺乳類サイズのゲノム(〜3Gb)のアセンブリでは、シーケンシングデータの量に応じてテラバイトの内部メモリが必要となる(Lampa et al、2013)。大規模なコンピュータクラスタがローカルで利用できない場合は、共同機器の購入、バイオインフォマティックスグループとの共同プロジェクト、または市販のコンピューティングクラウドの利用を検討する必要がある(Box 2; Schatz et al。2010b pubmed)。
- もう一つ考慮すべき点は、自由に利用できるプログラム(このカテゴリーに含まれるほとんどのプログラム)を使用するのか、商用ソフトウェア(CLCワークベンチやDNASTARのLasergeneなど)に投資するのかである。市販のソフトウェアは、通常、自由に利用できるプログラムよりもユーザーフレンドリーであるため、限られたバイオインフォマティクススキルを持つ研究者も容易に使用できる。商用ソフトウェアの欠点は、購入やライセンス供与に伴う(しばしば実質的な)コストを除けば、アルゴリズムの詳細を調べたり変更したりすることは不可能に近い「ブラックボックス」ソリューションに似ていることである。一般に使用されるソフトウェアアプリケーションの中には、シーケンシング機器と一緒に配布されるものもある。
- Highly closedな生物分類群のゲノム情報が利用できる可能性が存在する(Kohn et al。2006)。最も一般的な方法は、最初にコンティグを新たに作製し、次いでそれらをreferenceのゲノムにアライメントさせscaffolding を助けることである。広範なシンテニーおよび遺伝子の順序の保存を仮定すると、そのようなアプローチは、低いカバレッジデータ(Kimら、2013)や非常に短いショートリードシーケンシング(Wang et al。2014)を用いても大きなscaffoldsを構築することを可能にする。別のアプローチは、いわゆるAlign-Layout-Consensusアルゴリズムである。この方法では、デノボアセンブリのオーバーラップ工程は、リードのhighly closedなリファレンスゲノムへのアラインメントに置き換えられる。次いで、互いにオーバーラップするリードの情報を使用して新たにコンティグおよびscaffoldsが構築される(Schneeberger et al、2011)。
クオリティ評価
- アセンブリが正常に終わった後も、ユーザーは品質を評価したり、さまざまな方法で複数のアセンブリを比較したりすることが必要になる。しかし、上で論じたように、すべてのドラフトゲノムアセンブリは真のゲノム配列の仮説を構成するだけであり、真実を知ることができなければ、その質の評価方法には課題が残る。
- アセンブリのさまざまな側面を反映するさまざまな指標が利用可能である(Bradnam et al、2013 pubmed)。それらは外部データからの追加情報を必要とするアプローチと、アセンブリ自体の情報に基づくものだけに大別される。
- 1つの基本的なメトリックは、アセンブリに含まれるゲノムの割合である。予想されるゲノムサイズは、C-value(wiki、他参考HP)、またはk-merベースのアプローチから推測できる。アセンブリの連続性を評価するためのもう1つの標準的な測定基準は、N50 statisticである:定義上、組み立てられたヌクレオチドの50%は少なくともこの長さのコンティグ(コンティグN50)またはscaffolds(scaffolds N50)に見出される。したがって、N50 statisticはアセンブリされた配列の一種の中央値を記述する。
- N50のバリエーションとして、最近では期待されるゲノムサイズを組み込んだNG50やNG Graph(Bradnam et al、2013)が導入され、異なるアセンブリ間のcontiguity を視覚化して評価する効率的な手段が提供されている。
- しかしN50 statisticとその関連statisticは単に連続性を示し、アセンブリの精度に関する情報は含まれないため慎重に解釈する必要がある。アセンブリ内のエラーを検出するために、ペアエンドデータを、再マッピングしてその情報を使用することができる(例えば、ソフトウェアREAPR; Hunt et al、2013)(紹介)。カバレッジが低い領域または誤った向きでペアエンドリードがマッピングされればミスアセンブリが示唆され、異常なインサートサイズは小さな挿入または欠失がアセンブリに起きていることを示す。
- その領域だけ非常にカバレッジが高く、SNPが非常に多かったり、また大部分のリードで同じ塩基だが他の複数リードで別の塩基を表すような領域は、ほぼ同一の(だが崩壊した)リピートの存在を示している。
- これらを検討するソフトウェアアプリケーションは数多くあり、その例は現在の文献(Earl et al、2011 pubmed; Bradnam et al、2013 pubmed)に記載されている。The amosvalidate pipeline(Phillippy et al、2008; Schatz et al、2013)は、1つのパイプラインでいくつかのゲノムアセンブリ診断を包括しているがsmall~middleサイズのゲノムに最適化されている。
- 該当生物に関して独立した実験データセットがあれば、おそらく、外部情報の最良の供給源となる。例えば、optical maps(wiki、ショートリードの憂鬱)からのデータは、scaffoldsの精度を検証し、scaffoldsをさらに拡大して染色体レベルに近づけることを可能にする。同様に、BACまたはfosmidライブラリーを個々にアセンブルされた配列は、配列の正確性およびリピート含量を評価するのに役立ち得る。しかし、どちらのアプローチも、正確なアセンブリ自体に依存しており、現在小規模な研究所では容易に入手できない。
- RNA抽出のための新鮮な組織にアクセスすることは深刻な制限かもしれないが、ショットガントランスクリプトームシーケンシングデータ(RNA-seq)からの独立したデノボアセンブリはより容易に生成でき、ESTはすでに実施されているかもしれない。したがって、transcriptome データの内容およびexon構造は、遺伝子がscaffoldsをまたいでいる場合、scaffoldsの修正のために重要な追加リソースとなり得る。
- 比較ゲノムのアプローチは、追加のデータの生成を必要としない別の手段を提供する。例えば、オーソロガスなcore eukaryotic protein sequencesの存在および完全性の(Parra et al。2007)評価は、アセンブリが包括的であるかに関する最初の直感的情報を提供してくれる。
- Sister taxaの高品質のリファレンスゲノムが存在するなら、ゲノム比較することは、ブロードなレベルでのシンテニーおよび遺伝子順序の保存を仮定して、ミスアセンブリおよびキメラコンティグを検出するガイダンスになり得る。しかし、小規模なrearrangementsは現実的であり、深い調査を必要とするかもしれない。
- 他の生物由来のDNAが、様々な段階で(サンプリングおよび実験手順の両方の間に)ゲノム試料を汚染している可能性がある。サンプリング段階での汚染は、研究種に関連する寄生虫または他の微生物に関する情報を運ぶ可能性もあり、実際には保存の観点から興味深いかもしれない。
- 外部ゲノムリソースがあればそのようなコンタミネーションを見つけるのを助けてくれる。このようなコンタミネーションの痕跡を見つけるために、BLAST検索または類似のローカルアライメントがしばしば用いられるが、結果は注意深く解釈される必要がある。正確にアセンブリされた配列であっても、特にターゲット分類群内のシーケンシングが不十分である場合、よくアノテーション付けられたゲノムを有する遠い種からベストヒットが出る可能性がある。同様に、scaffoldsの大部分がターゲットクレードに顕著なヒットをもたらしていると、scaffolds内の小さなストレッチでのコンタミネーションが完全に見逃される可能性がある。
- ヒトゲノムが他の哺乳動物ゲノム配列に見つかる場合、サンプルの取り扱いに原因があると解釈するのが一般的であり、特に問題となる。しかし、哺乳類ゲノムの一部については、該当領域の配列が決定されていないため、シーケンシング精度がもっとも高いヒトまたはマウス配列に対してBLASTのベストヒットが出ているだけかもしれない。
ゲノムアノテーション
- ゲノム配列のポテンシャルを完全に引き出すには、GOterm(遺伝子オントロジー)(Gene Ontology Consortium 2004; Primmer et al、2013)、'Kyoto encyclopedia of genes and genomes' (KEGG) (KanehisaおよびGoto、2000)、microRNA and epigenetic modifications (ENCODEプロジェクトコンソーシアム2012)のような遺伝子モデルおよび機能情報からなる生物学的に関連する情報をつけてアノテーションする必要がある。
- 非モデル生物では、アノテーションはしばしばタンパク質コード配列(CDS)またはtranscriptsに限定されることがより一般的である。既存の遺伝子モデルがほとんど欠如しているため、新たにシーケンスされた種に遺伝子にアノテーションを付けるにはかなり難題だが、自動アノテーションは個々の研究グループにとって可能になった(Yandell and Ence 2012)。それでも、完全なゲノム注釈はかなりの労力を要し、バイオインフォマティクスの熟練を必要とする。一般的なワークフローについてのみ説明する。包括的なレビューはYandellとEnce(2012)を参照。
- アノテーションが成功するには、ゲノムアセンブリの品質に強く依存する。小さなギャップによってのみ切断された、ほぼ完全なゲノム(~90%)のみ満足のいく結果が得られる。経験則として、大きなゲノムはより長い遺伝子を有しており、したがって、アノテーションを成功させるためには、より連続したアセンブリが必要である(YandellおよびEnce 2012の論文の図1参照)(pubmed)。
- アノテーションプロセスは概念的に2つのフェーズに分けることができる。「計算フェーズ」は、他のゲノムからの複数行の証拠または種特異的なトランスクリプトームデータを並行して使い、初期の遺伝子とtranscriptsを予測する。第2の「アノテーションフェーズ」では、アノテーションパイプラインによって決定されたルールのセットに従って、すべての(時には矛盾する)情報が遺伝子アノテーションに合成される。
- 遺伝子予測の前に、複雑性の低い領域および転移因子を含むリピート配列をマスクすることが極めて重要である。リピートは種間で保存されていないことが多いため、RepeatModelerやRepeatExplorerなどのツールを使用して種特異的リピートライブラリを作成することが推奨される(Nováket al、2013)。
- リピートがマスクされると(例えば、RepeatMasker; http://www.repeatmasker.org)、関連種の遺伝子モデルを使いトレーニングしたab initioなアルゴリズムをコード配列(CDS)のベースライン予測に使用することができる(例えばAUGUSTUS; Stanke et al、 2006)。
- タンパク質アラインメント(例えば、tblastxを用いる)および種々の他の種からの合成タンパク質リフトオーバーは、遺伝子モデルの予測を補う貴重なリソースを提供する。
- 最良の証拠はESTとはRNA-seqデータから得られる。これらから、CDSに加えて、スプライスサイト、転写開始部位および非翻訳領域(UTR)に関する情報を遺伝子モデルに提供される。可能であれば、mRNAはストランド特異的にシーケンシングされる必要がある。
- 第二段階では、最初の予測およびタンパク質、ESTまたはRNAアライメントからのすべての証拠を、遺伝子アノテーションの最終セットに合成する。証拠はほとんど不完全であり、また時には矛盾するので、これは手作業のキュレーションなしには難しい作業になる。それでも、MAKER(Cantarel et al。2008)やPASA(Haas et al。2003)のような自動注釈ツールがいくつか存在し、そこからの証拠をウエイトをつけて取り入れ評価している。
- 9のようなツールは一般に良好な結果をもたらすが、定性的検証は重要である(例えば、オープンリーディングフレームの長さを評価することにより)。アノテーションの目視による検査は、イントロン漏れ(intron leakage)(イントロンがpre-mRNAの存在のためエキソンとして注釈される)または遺伝子融合などの系統的な問題を検出するための別の必須のコンポーネントである。
- GMODプロジェクトのWebApollo(Lee et al、2013)(ユーザーガイド)のようなツールは、ユーザーがビジュアルインターフェイスを介して直接アノテーションを編集できるようにするため特に便利である。
ゲノムの公開
- ドラフトゲノム配列は現在、ますます増加している。伝統的なEMBL(European Molecular Biology Labs)のENSEMBLやWellcome Trust Sanger Institute、National Center for Biotechnology Information (NCBI) のデータベースではゲノムやメタ情報へのアクセスを提供するが、既に全ての配列のアノテーションやキュレーションは出来なくなっている。
- したがって、NCBIはすでに、ユーザが生成したゲノム配列とアノテーションのドラフトをアップロードを受け付けている。 他のユーザーがアセンブリとそのアノテーションを改善できるようにするには、すべてのrawデータをNCBIのBioProjectなどにアップロードする必要がある。
Perspectives
ゲノミクス分野に進出した保全または生態学研究グループの実践的指針を提供する目的で、全ゲノムシーケンシング、アセンブリ、アノテーションの現在の方法に関する情報を要約した。 焦点は、保全の観点から、非モデル生物の大きくて複雑なゲノムに焦点が当てられている。 はじめに、一般的なゲノムリソースと、完全なゲノム配列が保存生物学の設定に適用できるいくつかの異なる方法を概説した(論文 図1も参照)。 保全ゲノム学は若い分野であり、適用された保全状況においてゲノム資源が試験に供されている例は依然として限られているが、そのようなケースのいくつかを述べる。
- イルミナのシーケンシングテクノロジーを用いられた最初の非モデル生物ゲノムの1つはジャイアントパンダ(Li et al。2010)であった。パンダゲノム論文の焦点は保存に関する問題ではないが、フォローアップ研究では、ゲノムドラフトを利用して、人口構造、適応的な遺伝的変異および人口統計を推測した(Wei et al、2012)。
- 同様に、アイマイでは、マダガスカルの異なる地域の12人からのリシークエンシングデータを利用して詳細な遺伝子集団構造を推定し、 landscape genetic analysesを実施した。この結果は、マダガスカル北部の大規模かつ連続的な生息地を維持するための保全資源の配分に関するガイダンスを提供するために用いられた(Perry et al、2013)。ゲノム資源は、伝染性の顔面のガンのため、野生で絶滅の危機に瀕しているタスマニアデビルの育種プログラムに利用されている。リファレンスゲノム配列とゲノムワイドリシークエンシングデータの組み合わせにより、腫瘍形成に関与する候補遺伝子の同定を含む、この疾患の多くの詳細を調査することが可能になった(Murchison et al、2012)。
- カリフォルニア州のコンドルの繁殖プログラムにおける突然変異を引き起こす発生性疾患の広がりを制限するために利用された(Romanov et al、2009)。最終的に、ゲノムワイドSNPスクリーニングは水産資源のモニタリングおよび管理に関するいくつかの研究において有効であった(Primmer 2009; Nielsen et al、2012a)。
今後の方向性
ナノテクノロジーのシーケンシングの急速な進歩と計算方法のさらなる発展により、ワークフローのすべてのステップが引き続き改善されると期待される。新しいライブラリー調製プロトコルにより、より少ないstarting materialからのシーケンシングが可能になり、より正確かつより正確に推定されたインサートサイズを有するライブラリーが生成され、エラー率が低下してより長いリードが生成される。より効率的なアセンブリアルゴリズムの開発と計算能の向上は、バイオインフォマティクスのデータ処理をより広い範囲のユーザーに受け入れやすくするだろう。ゲノムシーケンシングとアセンブリに伴うコストが低下し続ける中、ドラフトゲノム配列の生成は、ゲノムの大きな種についてもまもなく日常的になるだろう。この発展により、限られた資金しか持たない小規模な研究グループでさえも、保全生物学および関連する分野におけるゲノムアプローチの使用がエンハンスされ、選択した種のゲノム資源の発展が可能になる。
進歩のもう1つの重要な領域は、低品質な博物館資料から得られたサンプルの非侵襲的サンプリングによる、時間を超えたゲノム解析の発展である。ゲノムデータを保存し共有する方法を開発することも、これらの資源を保存のために重要になる。これらの有望な発展にもかかわらず、科学だけでは将来の保全の課題を満たすには不十分であることを認識する必要がある。したがって、保存遺伝学からゲノムスケールデータへの技術的移行は、適用される保存生物学がどのようにゲノムデータから最も利益を得ることができるかについての議論を緊密に伴う必要がある(McMahon et al、2014 pubmed)。この議論は一般的なケースバイケースで行われる必要があり、科学者や政治意思決定者も参加する必要がある。
引用
A field guide to whole‐genome sequencing, assembly and annotation
Ekblom R, Wolf JB.
Evol Appl. 2014 Nov;7(9):1026-42
参考
*1
サイエンスの大前提は反証可能性があること。
*2
Amplicon seqやRNA seqでは偶然の完全一致が無視できない数で起こりえるため、PCR duplicationを除くのは難しい。
*3
このブログでは、この段落の重要性を特に強調したい。