Bandageを使ってスモールゲノムアセンブリの難易度を推定する

2022/04/18 誤字修正,

2024/02/11 分かりにくい説明を修正

ロングリードシークエンシングを行う事で、小さなゲノムであれば、chromosomeの完全長アセンブリ、もしくはそれに近い連続性の高いアセンブリが達成出来きるようになりました。この点で最も恩恵を受けているのは細菌や古細菌などのゲノムであり、十分なシークエンシングデータさえあれば、数時間で完全なゲノムをアセンブルすることが出来るようになっています。小さなゲノムを決めるだけなら、昔のような大規模なプロジェクトは必要無くなった訳です。大きなゲノムでも、かつては国際的な研究コンソーシアム主導だったプロジェクトが、１つの研究グループで扱うプロジェクトに変化しています。その結果、今では毎日のようにラージゲノムアセンブリの論文を見るようになりました。シークエンシングコストが制限因子になりにくいヒトの臨床研究に関して言えば、（リファレンス配列を使って）８時間以内に候補バリアントを同定する研究まで出てきています（引用）。

　しかし現実には、2-Mb以下のゲノムでも完全長のchromosome配列やプラスミド配列を決定するのは難しいことがあります。反対に、30-Mbを超える真菌ゲノムでも、ショートリードだけで染色体配列に近いコンティグ数を得られることもあります。アセンブリ配列の連続性を決めるのは、ゲノムの中にシークエンシングリードよりも長いリピート配列がどれだけ存在しているのかと、そのリピートがゲノム中にどのように分布しているかの２点に大きく依存していて、これはゲノムによってバラツキが大きいからです。

ところで、ロングリードシークエンシングやほかのアセンブリ技術は、ショートリードシークエンシングよりもDNA抽出の難易度や使用コストが高くなっています。そのため、ゲノムアセンブリプロジェクトでは、まずはショートリードシークエンシングだけを行うこともあるでしょう。この時ショートリードだけでアセンブルすれば、アセンブリグラフから完全長ゲノムアセンブリを構築するための難易度を推定することが可能です。少しだけ説明してみます。

ここではBandageを使います。Bandage はアセンブリグラフを扱うためのGUIツールで、CUI環境で使うこともできます。以前紹介しました。

下の画像は、ある細菌のゲノムアセンブリです（一部のノードを改変）。ショートリードからunicyclerを使って構築したものです。トータルで1.68-Mbの長さがあります。

f:id:kazumaxneo:20220418001452p:plain

アセンブリグラフの中には、分岐がないにも関わらず切れているものがありますが、このアセンブリグラフではそのような構造は見当たりません。デッドエンドのない閉じたグラフと言えます。

左のメニューからColors by depthに変更して、リードデプスの深さで色が付くようにします。

f:id:kazumaxneo:20220418001653p:plain

黒いノード（コンティグ）はアセンブリグラフ中に1回しか出現しない配列で、配列が決定出来ている領域です。ここでは実行しませんが、黒いノードだけ消すなら、Ctrl＋クリック（Ctrl＋Shiftを押しながら囲んでも良い）で選択し、Edit =>　Remove selection from graphで消去できます。

複雑に分岐している部分を拡大します。中央の赤いノードがリピート配列です。labelのDepthにチェックをつければDepthの数値が表示されます（ただし短い配列のDepth値は不正確）。 f:id:kazumaxneo:20220418003620p:plain

赤いリピート６つだけを選択すると5915-bpの長さがありました。

f:id:kazumaxneo:20220418003847p:plain

一番長い5149-bpのリピートだけNCBIでBLASTをかけることを考えます。ノードを選択後、メニューのOutputからFASTA形式で出力します。それからBLASTサーチした結果、5149-bpのリピートはrRNAオペロンに相当することが分かりました。

rRNAオペロンは5-kb超の長さがあるため、ゲノム中にタンデムでなくても複数コピーあると、グラフの分岐として残り、隣接する配列と一意に繋ぐことは出来ません。rRNAオペロンがタンデムに存在するゲノムもあり、そうなるとさらに厄介ですが、そのようなループは本グラフにはないようです。この領域については、数kb以上の長さのロングリードシークエンシングができれば繋ぐことが出来る可能性があります。

グラフ中央のリピートはさらに複雑になっています。

f:id:kazumaxneo:20220418011656p:plain

色を元に戻し、長さを表示します。リピート中央には短めですがデプスが１ｘのノードがあるので、その右側に注目します。リピートは合計2266-bpの長さがあります。 f:id:kazumaxneo:20220418011953p:plain

色をdepthに戻します（リロードボタンを押してしまって配置が変わりました）。この合計2266-bpの長さのリピートも、数kb以上の長さのロングリードシークエンシングをすることで繋ぐことが出来る可能性があります。

f:id:kazumaxneo:20220418012431p:plain

今度は左側に注目します。リピートは合計6852-bpの長さがあります。

f:id:kazumaxneo:20220418014233p:plain

実際にはこのノードだけで5277-bpあります。このノードはデプスがｘ１で配列決定できている領域ですが、両側がリピートに囲まれているために複雑になっています。 f:id:kazumaxneo:20220418014534p:plain これらのリピートも、数kb以上の長さのロングリードシークエンシングをすることで一意に繋ぐことが出来るかもしれません。

このように、ショートリードのリピートを調べることで、ロングリードやほかのアセンブリ技術を追加した時の効果をある程度推測することができます。

答え合わせをしておくと、このゲノムアセンブリでは、ナノポアシークエンシング技術で1-kbから5-kbの長さのロングリードシークエンシング（x80）を追加しても完全長アセンブリにはなりませんでしたが、1-kbから10-kbの長さのロングリードシークエンシング（x80）を行うと、完全長アセンブリが得られました。ロングリードのアセンブラは十分な割合でオーバーラップしたロングリード同士を繋ぎ、コンセンサス配列を得るなどの処理を得て配列を出力します。つまり、リピートよりも十分に長い配列が十分な深さシークエンシングできている時、ゲノム全体に渡って配列決定されるということです。この10-kbという長さは携帯型のMinIONシークエンサーでシークエンシングすれば十分に達成可能な長さです。DNAが断片化していない限りは、MinIONなどでシークエンシングして完全長アセンブルするのは難しくないと推測されます。

下の画像は別のゲノムのもう少し厳しい例です。リピートが複数密集しており、トータルで29-kb近い長さがあります。

f:id:kazumaxneo:20220418122233p:plain

リピートが集まったこのようなノードが100-kbを超えることもあります。

以前も紹介したasmus Kirkegaardさんのツイートでは、メタゲノムアセンブリで発生した複雑なリピート構造に焦点を当てて、サンプルに頻繁に出現する配列を調べています。

Has anyone looked into what the most shared nodes in assembly graphs are? 1.4 Gbp assembly graph monster. #metagenomics pic.twitter.com/J4ei8WCU7D
— Rasmus Kirkegaard (@kirk3gaard) March 15, 2021