2022/06/11 誤字修正
COVID-19の大流行により、シークエンスデータの規模が一変し、SARS-CoV-2のゲノムは地球上のどの生物よりも多く配列決定された。これまでの系統樹探索のためのウェブベースのツールは、この規模の樹に直接スケールアップすることができなかった。本著者らは、WebGLを使用して、数千万ノードの系統樹を探索できる新しいツール、Taxoniumを開発した。Taxoniumは、突然変異を注釈した系統樹を可視化し、各内部ノードの遺伝子型を表示し、各ノードを関連するメタデータにリンクすることができる。オプションのサーバーサイドバックエンドにより、広く利用されているデータセットを迅速にロードすることができる。また、クライアントのみのモードでは、ニッチなデータや機密性の高いデータを探索することができる。Taxoniumはオープンソースのツールであり、どんな大きなツリーにも適用することができる。500万以上のSARS-CoV-2配列の公開系統樹を探索するためのアプリケーションを http://cov2tree.org で、より広範なTaxoniumツールを http://taxonium.org で、ソースコードを https://github.com/theosanderson/taxonium で提供している。
(マニュアルより)特にTaxoniumは、変異が注釈された系統樹に適用すると、特に威力を発揮する(ツイート)。このような系統樹では、突然変異を検索したり、遺伝子型を表示したりすることができます。このような系統樹は、しばしば UShER で生成されます。このような系統樹作成方法については、UShERのドキュメントを参照してください(UShERは、既存の系統樹にサンプルを迅速かつ正確に配置するためのプログラム)。
既存のSARS-CoV-2系統樹に注釈を付けたい場合もあると考えられる。UShERチームによってあらかじめ構築されたMATもダウンロードでき、taxonium_to_usherを使って自分のメタデータを追加することができる。
documentation
https://docs.taxonium.org/en/latest/
TaxoniumTools
https://docs.taxonium.org/en/latest/taxoniumtools.html
🌲🧬Announcing the release of https://t.co/ATqYFdR5dC 2.0, and a new preprint!
— Theo Sanderson (@theosanderson) June 6, 2022
The pandemic has seen an unprecented scale of sequencing. 11 million SARS-CoV-2 genomes are now available! Taxonium is the first tool to let you explore trees of this size. 🧵https://t.co/39CVDq4fHZ pic.twitter.com/OSWMMNpRzC
I've always described Taxonium as being like Google Earth for viral sequences: providing the ability to zoom right in on any sequence in a phylogeny of millions.
— Theo Sanderson (@theosanderson) June 6, 2022
Taxonium 2.0 adds a server-backed mode, where your computer only downloads the information it needs to display the visible tree, then downloads more data as needed as you zoom in on a particular area, or perform searches. So https://t.co/m8MusGFkpI loads quickly, even on a 📱. pic.twitter.com/7ZEXHBDq0n
— Theo Sanderson (@theosanderson) June 6, 2022
Taxonium
http://taxonium.orgにアクセスする。
Newick 系統のファイルをアップロードする。
また、任意でメタデータファイルをアップロードできる。その場合、左端の列はツリーと同じようにノードの名前を含んでいる必要がある。見出しと列名も必要。TSVかCSV形式を認識する。
立ち上がった。icytreeのexampleファイル;ARG.newickを使用している。
右下のボタンから縦に拡大・縮小、移動ができる。
横長にした。
マウスホイールで縦長にした(縦方向のみの拡大・縮小に対応)。
ドラッグすることで自由に移動できる。
右のフィルターメニューから高度な検索をすることができる。
Cov2Tree.org 公開インスタンスで高度な検索を試してみる。Cov2Tree.orgは、世界中の研究者が INSDC データベースに提供した公開データを使用して、 UCSC の研究者が構築したツリー。
色の指定はデフォルトではPANGOLIN lineage(PANGOLINソフトウェアによる系統分類;PANGO系統)となっている。国などに変更可能。
その下のSearchでは、いくつかの情報で検索可能。ここではMutationを選択。
置換後のアミノ酸を指定すると自動で検索が始まる。ヒットしたノードは赤丸で表示される。
Taxonium: a web-based tool for exploring large phylogenetic trees
Theo Sanderson
bioRxiv, osted June 03, 2022.
関連