比較ゲノム研究における長年の制限は、リファレンスゲノムへの依存である。これにより、生物集団全体で特定できる遺伝的多様性のスペクトルを妨げる。これは、ゲノムアーキテクチャが大幅に異なる可能性のある微生物の世界で特に当てはまる。したがって、リファレンスからのバイアスを導入することなく、複数のゲノムのアーキテクチャを同時に分析できる計算方法が必要である。
ここでは、Ptolemyを紹介する。Ptolemyはリファレンスを必要とせずに、微生物の集合体全体にわたって、構造変化やパンゲノムなどのゲノムアーキテクチャの多様性を研究するための新しい方法である。Ptolemyは、ゲノムアセンブリ全体を比較するための「トップダウン」アプローチを取る。ゲノムは、ラベル付きの多方向グラフ(gene anchors)として表され、シンテニー分析によって「gene anchors」を識別することにより、単一の標準的なgene anchorsにマージされる。標準的な震えは、コレクション内の(サブ)集団全体の構造的変異をエンコードする、指定されたコレクション内のすべてのゲノムのおおよその構造的アラインメントを表す。構造変化とマイコバクテリウム、サッカロミセス、エシェリヒア、および赤痢菌種を構成するさまざまなデータセットのパンゲノムを分析することにより、Ptolemyのさまざまなアプリケーションを強調する。 Ptolemyは柔軟性があり、保存されたゲノムアーキテクチャと非常に動的なゲノムアーキテクチャの両方を処理できることが結果からわかった。 Ptolemyは使いやすく、対応するGFF形式のファイルとともにFASTA形式のアセンブリのみが必要で、リソースに優しいため、4つのCPUと2 GB未満のRAMで24ゲノムを約10分でアラインさせることができる。
インストール
GIthubリリースからダウンロードする。
> java -jar ptolemy.jar -h
$ java -jar /Users/kazuma/Downloads/ptolemy.jar -h
Usage: java -jar ptolemy.jar [module]
CANONICAL QUIVER CONSTRUCTION
extract Run Ptolemy's extract module.
syntenic-anchors Compute syntenic anchors from pairwise ORF alignments.
canonical-quiver Construct canonical quiver.
STRUCTURAL VARIANT CALLING
variant-calling Identify structural variants as a population using maximally-labelled paths
OPTIONAL
run-msa Induce MSA across syntenic anchors.
テストラン
git clone https://github.com/AbeelLab/ptolemy.git
cd ptolemy/testing_data/
ランにはゲノムのパスを指定したリストファイルが必要。
> cat genome_list.txt
$ cat genome_list.txt
S288c ./test_data/S288c.chr07.fasta ./test_data/S288c.chr07.gff
CBS432 ./test_data/CBS432.chr07.fasta ./test_data/CBS432.chr07.gff
SK1 ./test_data/SK1.chr07.fasta ./test_data/SK1.chr07.gff(python2)
グラフを構築する。リストファイルを指定する。
java jar ptolemy.jar extract -g genome_list.txt -o ptolemy_db
java -jar ptolemy.jar syntenic-anchors --db ptolemy_db -o .
java -jar ptolemy.jar canonical-quiver -s syntenic_anchors.txt --db ptolemy_db -o .
出力されるグラフはGFAフォーマットで記述される。Bandageなどで可視化できる。
引用
Approximate, simultaneous comparison of microbial genome architectures via syntenic anchoring of quiver representations
Alex N Salazar and Thomas Abeel
Bioinformatics, Volume 34, Issue 17, 01 September 2018, Pages i732–i742