macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

パンゲングラフによって遺伝子含有量を探索する pangene

 

 遺伝子内容は生物の生物学的性質を制御しており、種間および同一種内の個体間で変化する。細菌ゲノムにおける遺伝子内容の変化を特定するツールは開発されているが、ヒトパンゲノムのような大規模な真核生物ゲノムのコレクションには適用可能なものは存在しない。本著者らは、複数のゲノムにおける遺伝子の向き、遺伝子の順序、遺伝子コピー数の変化を特定するための計算ツール「pangene」を開発した。pangene は、入力されたタンパク質配列の集合をゲノムにアラインし、タンパク質配列間の冗長性を解消し、各ゲノムをグラフ上のウォークとして表現する遺伝子グラフを構築する。さらに、**bibubble(バイブブル)**と呼ばれるサブグラフを検出し、遺伝子内容の変化を捉える。ヒトパンゲノムに適用したところ、pangene は既知の遺伝子レベルの変異を特定し、これまで十分に研究されてこなかった複雑なハプロタイプを明らかにした。また、pangene は高品質な細菌パンゲノムにも対応しており、既存のツールと同程度のコア遺伝子およびアクセサリ遺伝子の数を報告する。ソースコードhttps://github.com/lh3/pangene、プリビルド済み pangene グラフのダウンロードは https://zenodo.org/records/8118576で、プリビルドグラフはhttps://pangene.bioinweb.orgで閲覧できる。

 

 

Github

 

ここでは公開されているグラフの閲覧についてだけ簡単に紹介します。

プリビルドグラフ閲覧

https://pangene.bioinweb.org/にアクセスする。表に並んでいる遺伝子リストは、ヒトゲノムでコピー数バリアントが存在することが知られている遺伝子の例。

Cytochrome P450を見てみる。CYP2A6,CYP2A7,CYP2B6とそれに隣接する4つの遺伝子のアラインメントが示されている。472個のヒトゲノムハプロタイプ情報に基づいている。図の左端に数値があり、433個のハプロタイプが一番上の構造になっていることを示している。



 

各矢印が遺伝子に対応し、矢印の向きは遺伝子の方向を表している。別の遺伝子の色はランダムにアサインされ、同じ遺伝子には同じ色がアサインされている(上のボタンから切り替え可能)。白抜きの矢印は、生物学的エラーまたはアラインメントエラーからのフレームシフトまたはフレーム内ストップコドンの存在を示している。ラベルは遺伝子名を表す。

この図には見られないが、縦棒が矢印間にある場合、両側の2つの遺伝子がゲノム上で隣接していないことを示す。

 

グラフベースのアラインメントでは、CYP2A6を持たないハプロタイプや向きや順番が異なるハプロタイプが存在するため以下のように表現されている。

 

こちらから遺伝子名で問い合わせることが出来る。ヒトゲノムと論文で使われているM.tuberculosis (Mtb)に対応している。

 

引用

Exploring gene content with pangene graphs 

Heng Li, Maximillian Marin , Maha R Farhat

Bioinformatics, Volume 40, Issue 7, July 2024

 

関連