macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

真菌のコア遺伝子データベースとゲノムワイド系統解析のためのパイプライン UFCG

 

 系統発生学では、生物の進化的関係をゲノム情報によって研究する。各生物から関連する遺伝子を抽出し、多重配列アラインメントを構築し、系統樹によって進化関係を再構築するのが一般的なアプローチである。この解析には、分類群内での効率的な自動化を可能にするため、しばしばコア遺伝子と呼ばれる単一コピーで存在する保存性の高い遺伝子群が使用される。ここでは、真菌のゲノムワイド系統解析のためのUniversal Fungal Core Genes (UFCG) データベースとパイプラインを紹介する。UFCGデータベースは、計算によって得られた41個の新規コア遺伝子と文献から得られた20個のcanonical遺伝子、および一般に公開されている真菌ゲノムから抽出したマーカー遺伝子配列からなる61個のキュレーションされた真菌マーカー遺伝子で構成されている。さらに、マーカー遺伝子の抽出、学習、系統樹再構成のための使いやすい全自動パイプラインをオープンソースで提供している。UFCGパイプラインは、ゲノム、プロテオミクス、トランスクリプトームデータからマーカー遺伝子を同定し、同時に既報の系統と矛盾しない系統樹を作成することができる。UFCGデータベースとともに、https://ufcg.steineggerlab.com で一般に公開されている。

 

About

https://ufcg.steineggerlab.com/ufcg/about

Manual (Pipeline)

https://ufcg.steineggerlab.com/ufcg/manual

Tutorial (Pipeline)

https://ufcg.steineggerlab.com/ufcg/tutorial

 

 

Github

 

UFCGプロジェクトの特徴(Aboutより)

  • マーカー遺伝子データベース。配列とHMMをダウンロード可能
  • 分類学的情報と抽出済み遺伝子マーカーを提供するリファレンス真菌種データベース
  • 独自の生物学的配列を解析するためのパイプラインツールおよびマニュアル

 

webサービス

https://ufcg.steineggerlab.comにアクセスする。

Gene list

真菌のcanonical遺伝子とcore遺伝子を組み合わせた遺伝子リスト。canonical遺伝子は、真菌の分類学者が受け入れていて頻繁に使用しているもの。文献検索により定義され、組み込まれた。コア遺伝子は、単一コピーでオーソログであることが証明されている遺伝子。ゲノムに基づく系統樹の再構築に最も広く用いられている。

遺伝子名、機能的注釈、Saccharomyces Genome Database (SGD)のID、Uniprot IDなどが表示されている。

 

遺伝子をクリックすると、MSAが視覚化されて示される。MSA、FASTA配列、HMMプロファイルそれぞれはダウンロードできる。

 

Species list

新規マーカーを定義するために使用された1,587種の種のリストが含まれている。分類名でソートしたり検索できるようになっている。

アクセッションIDはNCBIにリンクしている。

 

それぞれの真菌ゲノムアセンブリについて、ITS配列、UFCGで定義されたコア遺伝子、BUSCO遺伝子をJSON形式でダウンロードできる。

 

ページ下では、分類学的な代表にされているエントリーと冗長なエントリーの両方を含む、10,984のアセンブリからのリソースのアーカイブをダウンロードできる。

 

このほか、LinuxmacでサポートされているjavaのFCG pipelineを使うと、真菌のゲノム配列、トランスクリプトーム配列、プロテオーム配列などからマーカー遺伝子配列を抽出したり、得られたマーカー遺伝子セットから多重整列を行ったり、その結果から系統解析を行うことができる。詳細はmanualを読んで下さい。

引用

UFCG: database of universal fungal core genes and pipeline for genome-wide phylogenetic analysis of fungi
Dongwook Kim,  Cameron L.M. Gilchrist,  Jongsik Chun, Martin Steinegger

bioRxiv, Posted August 17, 2022.