ヒト遺伝子のCHESSデータベース(Comprehensive Human Expressed SequenceS)は、Genotype-Tissue Expression (GTEx)プロジェクトで作成されたヒト53部位における約1万件のRNAシーケンス実験から構築され、さらに他のデータベースからの遺伝子を加えて、タンパク質コーディングおよびノンコーディング転写物の総合コレクションを作成したものである。新しいCHESS 3データベースの構築では、改良された転写産物アセンブリアルゴリズム、新しい機械学習分類器、タンパク質構造予測を用いて、機能的である可能性の高い遺伝子や転写産物を特定し、ノイズである可能性が高いものを排除した。新しいカタログには、GRCh38リファレンスヒトゲノム上の41,356個の遺伝子(うち19,839個はタンパク質コード)と、合計158,377個の転写産物が含まれている。この中には、14,863の新規タンパク質コード転写物が含まれている。転写産物の総数は、トランスクリプトームアセンブリ方法の改善と、ノイズとなる転写産物をフィルタリングするためのより厳格なプロトコルにより、以前のバージョンよりも大幅に少なくなっている。注目すべきは、CHESS 3はMANEデータベース(Matched Annotation between NCBI and EMBL-EBI;ヒトの遺伝子と転写産物のアノテーションを集約し、ヒトのタンパク質コード遺伝子の代表転写物と対応タンパク質をゲノム規模で定義することを目的とする共同プロジェクト)の全ての転写産物を含み、RefSeqおよびGENCODEデータベースのタンパク質コード遺伝子の大部分に対応する少なくとも一つの転写産物を含んでいることである。また、CHESS 3はCHM13ヒトゲノムにマッピングされており、より完全な遺伝子数である43,773遺伝子と19,968タンパク質コード遺伝子が得られている。CHESSデータベースは http://ccb.jhu.edu/chess で公開されている。
HP
CHM13とGRCh38.p12アセンブリでの遺伝子アノテーションやタンパク質FASTAファイルをダウンロードできる。また、CHESS 3.0の転写識別子と、他の一般的なデータベース(RefSeq、GENCODE、CHESS2)の対応する識別子のリストも入手できる。
CHESS2.2
https://ccb.jhu.edu/chess_backup_08102022/index.shtml
引用
CHESS 3: an improved, comprehensive catalog of human genes and transcripts based on large-scale expression data, phylogenetic analysis, and protein structure
Ales Varabyou, Markus J. Sommer, Beril Erdogdu, Ida Shinder, Ilia Minkin, Kuan-Hao Chao, Sukhwan Park, Jakob Heinz, Christopher Pockrandt, Alaina Shumate, Natalia Rincon, Daniela Puiu, Martin Steinegger, Steven L. Salzberg, Mihaela Pertea
bioRxiv, Posted December 22, 2022