分子データベースは実験生物学者にとっても計算生物学者にとっても不可欠なリソースである。高品質なゲノムアセンブリの急速な増加により、脊椎動物の多様なグループにわたる系統特異的適応に関連する二次的な遺伝子消失事象について記述した出版物が急増している。このような情報量の増加は、データの発見を容易にし、広範な進化パターンを検出し、下流の解析をサポートする、組織化され、検索可能で、キュレーションされたリソースの緊急の必要性を強調している。現在のところ、公表されている二次的な遺伝子ロス事象に関する情報を手作業でキュレーションし、検証したデータベースは存在しない。ここでは、Gene Loss Database (GLossDB) を紹介する。GLossDBは、このようなデータを一元化し、検索しやすく、ユーザーフレンドリーなフォーマットで提供するためにデザインされたプラットフォームである(https://geneloss.org/ )。GLossDBは遺伝子ロスイベントを、遺伝子欠損の推定されるメカニズム(エクソン欠失、遺伝子欠失、機能変異)、不活性化を裏付けるデータの種類(ゲノム、トランスクリプトーム、単一/複数個の配列リード、シンテニーマップ)、可能であればその事象が分類群内の全系統で共有されているかどうかなどの証拠とともにまとめている。各エントリには、文脈を提供するために、元の出版物からの短い抜粋も含まれている。この情報は、種、遺伝子、分類群、または問題の遺伝子にリンクされたGO termで検索可能なようにデータベース内で構造化されている。GLossDBの最初のリリースは、水生適応に関連する数多くの遺伝子ロスイベントを持つ系統である鯨類に焦点を当てている。最初のコレクションには、57種のクジラで同定された1866の遺伝子消失イベントから構成されている。さらに、同じ研究で報告され、同時に収集された他の分類群からの1321の遺伝子消失イベントも含まれている。
help
Release notes
https://geneloss.org/release-notes
https://geneloss.org/にアクセスする


出力例

上の方にはリファレンス遺伝子のテーブルのほか、遺伝子の機能についての説明がある。

テーブルには遺伝子名とリファレンスの種、遺伝子名のAlias,Paralogs、exon数、EC番号などが示されている。アノテーションはヒトゲノムのオルソログ遺伝子にリンクされていて、これが適用できない場合は、別の生物種からの代替リファレンス遺伝子が選択される(helpより)。
中盤にはGene Ontologyが3つのカテゴリーそれぞれで表示される。

一番下がGene Loss eventsの表となる。この遺伝子がロスしている種が表示される。

本データベースで利用可能な遺伝子欠損の情報は、複数の生物種で遺伝子欠損に関する生物学的データが確認された査読付き論文のみから収集されている。表の右端の列には該当する査読論文へのリンクが表示されている。
表の”Gene Loss Mechanism”の列は以下の情報を表している。
LOF : 遺伝子の不活性化は1つ以上の機能喪失変異によって起こる。これにはフレームシフト変異、早発ストップコドン、正規スプライス部位の切除が含まれる。
Gene deletion:問題の遺伝子がゲノム上に存在しない。
Exon(s) deletion:遺伝子の一部がゲノムから欠失する。
Regulatory region mutation : 遺伝子の転写を阻害する変異。
Other : 染色体リアレンジメント、逆位、その他の現象で、キュレーターの観察結果や出版物の抜粋欄に記載できるもの。

表の”Loss type”の列は以下の情報を表している。
Full : 遺伝子欠損は当該種の全個体で観察されると予想される。
Polymorphic : 遺伝子欠損は当該種の一部の個体で観察される。
Undetermined : この種の遺伝子消失の程度を決定するのに十分な情報がない。

表の”LINEAGE SPECIFIC”の列は系統特異性を示している。
YES : 該当の遺伝子はこの特定の系統の全個体で失われ、その証拠は分析したすべての種に共通する保存された突然変異として提供される。
NO : この遺伝子消失事象が同じ系統の他の種にも及んでいることを裏付ける証拠は提供されていない。

表のGene Loss ID(GL_ID)をクリックするとその種の該当する遺伝子にジャンプする。Balaenoptera musculusのAWAT1のページにジャンプした。

一番上のReference Geneの表には遺伝子欠損についての”Evidence”列がある。以下のタイプがある。
Multiple individual SRA : 独立したサンプルのSRAデータを用いて、複数の個体について検証されたもの。
Single individual SRA : SRA データを用いて 1 個体について検証されたもの。
Sanger seq Multiple : 独立したサンプルのサンガーシーケンスにより、複数の個体について検証。
Sanger seq Single : Sanger sequencingを用いて1個体について検証。
Transcriptomic : トランスクリプトームリードを用いて検証された遺伝子欠損。
Genomic : ゲノムデータまたはアセンブルされたゲノムを用いて検証された遺伝子欠損。
Genomic and Transcriptomic : トランスクリプトームリードとゲノムデータを用いて遺伝子欠損を検証。
Synteny maps:保存されたシンテニーマップを用いて遺伝子欠損を検証。

下のStatesmentテーブルには、遺伝子欠損の状態と起きた進化の時期、表現型への影響、その他の情報がキュレーションされてまとめられている(下にはキュレーターの名前も確認出来る)。

トツプページ下からは、種ごとの遺伝子欠損一覧、ソースの文献などを確認できる。

また、トツプページの一番下からはPseudoChecker(webサービス)などの他のサービスへのリンクも表示されている。
引用
Gene Loss DB: A curated database for gene loss in vertebrate species.
Goncalo Espregueira Themudo, Raquel Ruivo, Raul Valente, Nadia Artilheiro, Diogo Oliveira, Ines Amorim, Bernardo Pinto, L. Filipe C. Castro, Sergio Fernandes, Monica Lopes-Marques
bioRxiv, Posted May 30, 2025.