系統発生学では、生物の進化的関係をゲノム情報によって研究する。各生物から関連する遺伝子を抽出し、多重配列アラインメントを構築し、系統樹によって進化関係を再構築するのが一般的なアプローチである。この解析には、分類群内での効率的な自動化を可能にするため、しばしばコア遺伝子と呼ばれる単一コピーで存在する保存性の高い遺伝子群が使用される。ここでは、真菌のゲノムワイド系統解析のためのUniversal Fungal Core Genes (UFCG) データベースとパイプラインを紹介する。UFCGデータベースは、計算によって得られた41個の新規コア遺伝子と文献から得られた20個のcanonical遺伝子、および一般に公開されている真菌ゲノムから抽出したマーカー遺伝子配列からなる61個のキュレーションされた真菌マーカー遺伝子で構成されている。さらに、マーカー遺伝子の抽出、学習、系統樹再構成のための使いやすい全自動パイプラインをオープンソースで提供している。UFCGパイプラインは、ゲノム、プロテオミクス、トランスクリプトームデータからマーカー遺伝子を同定し、同時に既報の系統と矛盾しない系統樹を作成することができる。UFCGデータベースとともに、https://ufcg.steineggerlab.com で一般に公開されている。
About
https://ufcg.steineggerlab.com/ufcg/about
Manual (Pipeline)
https://ufcg.steineggerlab.com/ufcg/manual
Tutorial (Pipeline)
https://ufcg.steineggerlab.com/ufcg/tutorial
UFCG is a database&pipeline for fungi phylogenomics. Our db contains 61 marker genes, 20 widely used & 41 novel core-genes derived from 1.5k genomes. The pipeline automatically build a trees from DNA, RNA or AA sequence inputs.
— Martin Steinegger 🇺🇦 (@thesteinegger) August 17, 2022
📄https://t.co/zrZy0DiAM3
🌐https://t.co/IQGeSGzkQj pic.twitter.com/avCv4TzaoH
UFCGプロジェクトの特徴(Aboutより)
- マーカー遺伝子データベース。配列とHMMをダウンロード可能
- 分類学的情報と抽出済み遺伝子マーカーを提供するリファレンス真菌種データベース
- 独自の生物学的配列を解析するためのパイプラインツールおよびマニュアル
https://ufcg.steineggerlab.comにアクセスする。
Gene list
真菌のcanonical遺伝子とcore遺伝子を組み合わせた遺伝子リスト。canonical遺伝子は、真菌の分類学者が受け入れていて頻繁に使用しているもの。文献検索により定義され、組み込まれた。コア遺伝子は、単一コピーでオーソログであることが証明されている遺伝子。ゲノムに基づく系統樹の再構築に最も広く用いられている。
遺伝子名、機能的注釈、Saccharomyces Genome Database (SGD)のID、Uniprot IDなどが表示されている。
遺伝子をクリックすると、MSAが視覚化されて示される。MSA、FASTA配列、HMMプロファイルそれぞれはダウンロードできる。
Species list
新規マーカーを定義するために使用された1,587種の種のリストが含まれている。分類名でソートしたり検索できるようになっている。
アクセッションIDはNCBIにリンクしている。
それぞれの真菌ゲノムアセンブリについて、ITS配列、UFCGで定義されたコア遺伝子、BUSCO遺伝子をJSON形式でダウンロードできる。
ページ下では、分類学的な代表にされているエントリーと冗長なエントリーの両方を含む、10,984のアセンブリからのリソースのアーカイブをダウンロードできる。
このほか、LinuxとmacでサポートされているjavaのFCG pipelineを使うと、真菌のゲノム配列、トランスクリプトーム配列、プロテオーム配列などからマーカー遺伝子配列を抽出したり、得られたマーカー遺伝子セットから多重整列を行ったり、その結果から系統解析を行うことができる。詳細はmanualを読んで下さい。
引用
UFCG: database of universal fungal core genes and pipeline for genome-wide phylogenetic analysis of fungi
Dongwook Kim, Cameron L.M. Gilchrist, Jongsik Chun, Martin Steinegger
bioRxiv, Posted August 17, 2022.