真核生物の予測されたタンパク質のデータベース EukProt

2020 7/23 説明追加

　EukProtは、公開されている予測タンパク質セットと、真核生物の多様性を表すために選択された非注釈ゲノムのデータベースで、すべての主要なスーパーグループからの742種とorphan taxaを含む。系統図、遺伝子ファミリー進化、その他の遺伝子ベースの研究のための単一の便利なリソースを提供することを目的としている。各種は、下流の解析を容易にするためにUniEuk分類学的枠組みの中に配置され、各データセットは、解析間の比較と複製を容易にするために、一意の永続的な識別子に関連付けられている。また、そのデータベースは現在バージョン2であり、すべてのバージョンは永久に保存され、FigShareを介して利用できるようになる。真核生物の多様性と多様化を理解するための研究を促進するための共同リソースを構築することを目標に、今後のバージョンに含まれる新しいデータセットや新しいアノテーション機能についての提案をコミュニティに提供していく。

　一般的には、種ごとに1つの株/アイソレートからのデータのみを収録している。しかし、ある種の特定の株について単一のトランスクリプトームデータセットのみが利用可能であり、同じ種の他の株について追加のトランスクリプトームデータセットが発表されている場合、単一のトランスクリプトームがある条件または実験でのみ発現された遺伝子を欠く可能性を防ぐために、デフォルトのパラメータ値で実行されたCD-HIT (Li & Godzik, 2006)を用いてそれらを結合した。複数の系統をマージして種のデータセットを作成した場合（そのようなケースは25件あった）、この情報はデータセットのメタデータに記載されている。

　種および株の同定は、データセットを記載したpublicationsを読み、命名変更の文献を参照し、18SリボソームDNA配列を参照配列データベースと比較することで行った。以前に他の名称で知られていた種については、種が元々属名として割り当てられていたが、種レベルでは同定されていない場合を除き、データセットのメタデータに記録した（例えば、現在はGoniomonas avonleaとして同定されているGoniomonas sp.は、旧名称としてリストアップされていない）。

　他のいくつかのリソースで使用されている分類体系とは異なり、我々が提供するすべての種の完全な分類体系（UniEukプロジェクトで開発されたフレームワークに従う）は、固定された数のランクに基づいているのではなく、系統的証拠を可能な限り密接に一致させるために、自由で無制限の数の分類レベルに基づいている。これは、エンドユーザーにより多くの情報と柔軟性を提供するが、下流の解析結果をまとめるのがより困難になる可能性がある。そこで、真核生物の多様性を、同等の系統的深さや生態学的関連性を持つ固定数の分類群に分散させることが有用である場合に、エンドユーザーを支援するために、２つの追加フィールド（"supergroup "と "taxogroup"）を提供する。42の「スーパーグループ」（そのうち38がEukProtに含まれている）は、「古典的な」アルベオラータ（Alveolata）、根粒菌（Rhizaria）、ストラメノピレス（Stramenopiles）と同等の系統深さを持つ、厳密に単系統で深く分岐する真核生物の系統から構成されている（以下略）。

data

FigShare 252に掲載されているEukProtのデータベースは5つのファイルを含む1つのアーカイブで配布されている。1つ目のファイルには、予測されたタンパク質を含むゲノム（239）またはシングルセルゲノム（10）、トランスクリプトーム（453）、シングルセルトランスクリプトーム（7）、ESTアセンブリ（17）のいずれかを持つ種の726のタンパク質データセットが含まれている。。2つ目のファイルには予測されたタンパク質のアノテーションを欠く16のゲノム、シングルセルゲノムを持つ15種とゲノム配列を持つ1種が含まれている。これらから、翻訳配列相同性検索ソフトウェアを用いて、興味のあるタンパク質を検索できる。3つ目のファイルには、公開されているmRNA配列のリードはあるが、公開されているアセンブリはない53種のトランスクリプトームコンティグが含まれている。これらのアセンブリから予測されたタンパク質がタンパク質ファイルに含まれている。最後に、データベースのメタデータは2つのファイルとして配布されている。1つは現在のバージョンのデータベース（742）に含まれるデータセットのためのファイルで、もう1つは含まれないデータセットのためのファイル（50）で、含まれなかった理由（例えば、配列が公開されているが公開されていない場合や、同じ種のより質の高いデータセットに置き換えられた場合など）を添付している。

EukProtのメタデータは、データソースからダウンロードした後、各データセットに適用された追加の手順を示している指定されたデータセットのメタデータレコードに記載されていない限り、すべてのソフトウェアのパラメータ値はデフォルトである。

'assemble mRNA'：Trinity v. 2.8.4を用いたde novoトランスクリプトームアセンブリ。Illuminaの入力リードをTrimmomatic v. 0.3.9の'--trimmomatic'オプションと'ILLUMINACLIP:[454 adapters FASTA file]:2:30:10 SLIDINGWINDOW:4:5 LEADING:5 TRAILING:5 MINLEN:25'を指定してアダプタートリミングと品質トリミングを行なった。
'translate mRNA'：Transdecoder v. 5.3.0を用いたmRNA配列のde novo翻訳、http://transdecoder.github.io/。与えられた種の予測タンパク質配列の数が入力mRNA配列の半分以下の場合、予測タンパク質の最小長さをデフォルトの100から50に減らした。
CD-HIT」：CD-HIT v.4.6を使用してタンパク質配列のクラスタリングを行い、冗長性のないデータセットを作成した。このツールは主に同一種の異なる系統のタンパク質予測を組み合わせるために使用したが、冗長性の証拠を示した非常に大きな予測タンパク質セット（50,000タンパク質以上）のサイズを縮小するためにも使用した。
EMBOSS パッケージ v. 6.6.6.0.0,のextractfeatを使い、遺伝子アノテーションを持つが、公開されているタンパク質配列がないゲノムからコーディング配列（CDS）を作成した。CDSを直接タンパク質に翻訳するためにEMBOSSのtranseqを使用した。また、その配列は、遺伝子アノテーションが公開されていないゲノムから収集したものである。

データセット

Figshareからデータをダウンロードした。

2020 7/21アクセス時のVersionは2で、ダウンロードサイズは5GBくらいだった。解凍すると以下のようなファイルが展開される。

f:id:kazumaxneo:20200722233719p:plain

１、EukProt_proteins.v02.2020_06_30.tgz

ゲノム（239）またはシングルセルゲノム（10）の予測されたタンパク質配列、トランスクリプトーム（453）、シングルセルトランスクリプトーム（7）、ESTアセンブリ（17）の計726のタンパク質データセット。

解凍したところ。合計７２６ファイルある。中身はアミノ酸配列。

f:id:kazumaxneo:20200722234537p:plain

２、EukProt_unannotated_genomes.v02.2020_06_30.tgz

予測されたタンパク質のアノテーションを欠く16のゲノム配列（シングルセル１５＋ゲノム１）。

解凍したところ。合計１６ファイルある。中身は塩基配列。

f:id:kazumaxneo:20200722235307p:plain

３、EukProt_assembled_transcriptomes.v02.2020_06_30.tgz

公開されているmRNA配列リードはあるが、アセンブリの公開がない53種のトランスクリプトームアセンブリ。これらのアセンブリから予測されるタンパク質は、上のリストのタンパク質ファイルに含まれている。

解凍したところ。合計５３ファイルある。このファイル自体は塩基配列。

f:id:kazumaxneo:20200722235718p:plain

他のEukProt_included_data_sets.v02.2020_06_30.txtおよびEukProt_not_included_data_sets.v02.2020_06_30.txtは、データベースに含まれる742データセットまたは含まれない50のデータセットの表になる。

EukProt_included_data_sets.v02.2020_06_30.txt

f:id:kazumaxneo:20200723000435p:plain

EukProt_not_included_data_sets.v02.2020_06_30.txt

f:id:kazumaxneo:20200723000341p:plain

表のEukProt_IDはデータセットに関連付けられた一意の識別子になる。これはバージョン更新では変更されない。新しいデータセットがその種で利用可能になった場合は、新しい一意の識別子が割り当てられる。Taxonomy_UniEukはUniEuk分類法における種の完全な系統でセミコロンで区切られている。データがダウンロードされたURLやデータを公開した論文も記載されている。また公開されているファイルを処理するために行われた操作のカラムもある。

引用

EukProt: a database of genome-scale predicted proteins across the diversity of eukaryotic life

Daniel J. Richter, Cédric Berney, Jürgen F. H. Strassert, Fabien Burki, Colomban de Vargas

bioRxiv, Posted July 01, 2020