パンコムギ16ゲノムの存在・不在バリエーションを表現したパンゲノムグラフデータベース Wheat Panache

　パンコムギ（Triticum aestivum L.）は最も広く栽培されている作物の一つであるが、増大する世界人口の予測需要に対応するために収量を増加させることが大きな課題である。気候変動に関連した収量損失は、21世紀半ばまでに17～31%に及ぶと予測されており（Obembe et al, 2021）、気候変動に対応した小麦品種を生産するためには、ゲノムに基づく育種アプローチの改善が必要である。

　小麦のゲノミクスは近年急速に進歩し、isolateした染色体アームのショットガンシーケンスに基づき、2014年に最初のドラフトゲノムアセンブリ（The International Wheat Genome Sequencing Consortium [IWGSC], 2014）が作成された（Berkman et al, 2011, 2012; Lai et al.、2015）。2017年に「Chinese Spring」の最初のほぼ完全なアセンブリが作成され（Zimin et al., 2017）、2018年に最終的なリファレンスゲノムアセンブリが利用可能になった（IWGSC, 2018）。このリファレンスアセンブリは、世界の育種プログラムからの15品種の追加アセンブリに急速に追随した（Walkowiakら、2020）。

　リファレンスゲノムアセンブリの利用可能性が高まったことで、個体間に大きな presence–absence variation (PAV) が存在することが明らかになった（Bayer et al., 2020; Golicz et al., 2016, 2020; Hurgobin & Edwards, 2017）。この洞察により、個体ではなく種の遺伝子内容を反映したパンゲノムが作成されている（Bayer et al., 2021; Franco et al., 2020; Golicz et al., 2016; Jensen et al., 2020; Montenegro et al., 2017; Rijzaani et al., 2021; Ruperao et al., 2021; Song et al., 2020; Zhao et al., 2020）。現在、いくつかの植物種でパンゲノムが利用可能であり、2017年にはパンコムギ16品種の遺伝子内容を表す最初のパンコムギのパンゲノムが発表された（Montenegro et al.、2017）。この小麦のパンゲノムは、 iterative mapping approachでアセンブルされ、新しい遺伝子空間を効率的に特定し、個体間の遺伝子の有無を呼び出すことができた。しかし、このようなパンゲノムは、新しい遺伝子空間の物理的な位置を正確に決定することが困難であるという制限がある。複数の全ゲノムを参照できるようになると、この限界はグラフベースのパンゲノムを作成することで解決できるかもしれない。グラフベースのパンゲノムはグラフデータ構造のおかげで最近人気が出てきており、vg (Hickey et al., 2020), seqwish (Garrison & Guarracino, 2022), minigraph (Li et al., 2020), PHG (Jensen et al., 2020) といったツールを使って、ゲノムや構造変異の物理位置を最小限のリファレンスバイアスで正確に表現し、変異、配列、ハプロタイプグラフの構築にもうまく適用できるようになっている。

　パンゲノムグラフの大きな限界は、このような複雑なグラフ構造を可視化するツールがほとんどないことである。GBrowse (Donlin, 2009), JBrowse2 (Buels et al., 2016), or Circos (Krzywinski et al., 2009) などのゲノム可視化ツールは、複数のゲノムのグラフではなく、線状のリファレンスゲノムに対する情報を表示するように設計されており、Bandage (Wick et al., 2015) などのグラフビューワは、そのようなグラフの表示には適していない。あるいはODGI（Guarracino et al., 2021）などのパンゲノムビューアは、グラフ自体の可視化に重点を置いているが、ゲノムアノテーションなど他の情報はほとんど表示されない。

　Panache（Github）は、直線化されたアセンブリグラフを処理し、共有領域をウェブベースの動的ヒートマップとして表示できる、最近のパンゲノム可視化ツールである（Durant et al.、2021）。Panacheは今のところバナナ（Musa acuminata Colla）パンゲノムのPAVの可視化にのみ適用されているが（Rijzaani et al., 2021）、小麦のような大きな作物ゲノムでも他の種に拡張できる可能性を持っている。ここでは、小麦パンゲノム全体のゲノム領域を可視化するための新しいウェブベースのブラウザと、minimap2（Li、2018）およびGiraffe（Jouni et al、2021）用にフォーマットされたグラフとともに、公開のWheat Panacheデータベース内でホストされている16のパンゲノムを示すグラフパンゲノムを紹介する。このツールは、研究者や育種家に、この大きく複雑なゲノムに存在する多様性を採掘し、これらの品種間のゲノムの変異を評価する能力を提供する。

Happy to see this out from my 'previous life' :) Building the graph took like 800GB of memory https://t.co/CvflM2Lo5f
— Philipp Bayer (@PhilippBayer) May 31, 2022

panache wiki

Functionalities tour · SouthGreenPlatform/panache Wiki · GitHub

webポータル

https://www.appliedbioinformatics.com.au/wheat_panache/にアクセスする。

Panache（Github）は、線形化されたパンゲノムを可視化するために設計されたウェブベースのインターフェース。パンゲノムの配列や遺伝子のブロックの有無情報をブラウザで表示できる。

表示する染色体を選択する（Panacheは一度に一つの染色体が表示される）。

コアゲノムと可変ゲノム（またはdispensableゲノム）をしきい値で色分けするスライダーが用意されている。

この閾値以上の存在数を持つパンゲノムブロックはオレンジ色に、それ以外は青色に着色される（上から2つ目のトラック）。

Zoom Levelスライダー；表示する領域を調節するズームレベルスライダーも用意されている。

Hollow Area Finderは、ブロックが連続して存在しないゾーンを探すユーティリティ。2つのパラメータで調整する。

Absence rate: ある領域において、連続的に欠落しているゲノムの割合。
Number of consecutive：連続するブロックのうち、欠落しているべき最小の数

これらの条件に合致する領域の座標が格納され、下部のナビゲーションボタンで探索できる。それ以上のブロック数で連続欠測が検出された場合、そのエリアは自動的に消去される。

注：パフォーマンス上の理由から、計算はHAFが開いているときのみ実行される（この巨大なパンゲノムでは、調整には時間がかかり、フリーズする可能性がある）。

下のトラックに16個の小麦ゲノムそれぞれの存在している領域と存在していない領域が表示されている。上の4つのトラックは、一番上がPresence Absence Variation Matrix（16個の小麦ゲノムのものと同じもの）、その下がコアゲノムと可変ゲノムで色分けされたCore / variable status track（スライダーで調整可能）、その下がPosition track（座標系上の位置に応じて色づけている）、一番下が繰り返しトラックとなっていて、繰り返しの回数に応じて濃い緑色で表示される。

プレゼンスマトリックス上のアノテーションマーク（黒い四角）にカーソルを合わせると、アノテーションが表示される。

論文ではパンゲノムグラフの構築方法など書かれています。勉強になりました。ゲノムサイズが巨大なこともあって、メモリ使用量が膨大になるみたいですね。

引用

Wheat Panache: A pangenome graph database representing presence–absence variation across sixteen bread wheat genomes
Philipp E. Bayer,Jakob Petereit,Éloi Durant,Cécile Monat,Mathieu Rouard,Haifei Hu,Brett Chapman,Chengdao Li,Shifeng Cheng,Jacqueline Batley,David Edwards
The Plant Genome, First published: 29 May 2022