2020 2/2 追記
章末補足資料
1、どのアノテーション情報を使うか
よく研究された大腸菌であっても、数百以上の様々なゲノムが登録されている。同じ系統の株でもGene IDなどは統一されていない。そのため、100%塩基配列が同じゲノムと考えてわずかに違う株のアノテーション情報を使ったりすると、DEG検出後の二次解析がうまく行えない可能性がある。例えば、K-12系統のsubstrain MG1655を使っているとして、MG1655の代わりにK-12のアノテーション情報を使って定量を行うと、データを読み込んでもうまく動作しない。理由は単純で、stringdb由来のMG1655のアノテーション情報だけ取り込まれており、IDが合致しないからである。
Ensemblに登録されている様々なゲノムのIDに対応しているが、StringDBのIDのみに対応しているゲノムも多く存在する。また、Ensembl IDとStringDBのID両方に対応しているゲノムもあってややこしいが、両方対応しているならより情報が新しいEnsembl IDを選ぶ。Ensemblにデータベースはあるが、StringDBのIDにしか対応していない場合もある。
以下に、gene IDの認識が正しく行われ、二次解析がうまくいくことを確認した例を載せておく。
例1、E.coli
ENsembl bacteriaのE.coliゲノム- Escherichia coli str. K-12 substr. MG1655(https://bacteria.ensembl.org/Escherichia_coli_str_k_12_substr_mg1655/Info/Index)からゲノムのfastaとgff3ファイルを ダウンロードした。
例2、S.cerevisiae
対応するゲノムのリストに Saccharomyces cerevisiae (R64-1-1)が記載されている。EnsemblのSaccharomyces cerevisiae - Ensembl genome browser 97 からゲノムのfastaとgff3ファイルを ダウンロードした。
例3、Zebrafish (danio rerio)
対応するゲノムのリストに Zebrafish (GRCz11) が記載されている。Ensemblの
Danio rerio - Ensembl genome browser 97 からゲノムのfastaとgff3ファイルを ダウンロードした。
例4、Mouse (mus musculus)
対応するゲノムのリストにMouse (GRCm38.p6) が記載されている。Ensemblの
Mus musculus - Ensembl genome browser 97からゲノムのfastaとgff3ファイルを ダウンロードした。
例5、 C.elegans
対応するゲノムのリストにCaenorhabditis elegans (WBcel235) が記載されている。Ensemblの
Caenorhabditis elegans - Ensembl genome browser 97 からゲノムのfastaとgff3ファイルを ダウンロードした。
例6、A.thaliana
対応するゲノムのリストにArabidopsis thaliana (TAIR10) が記載されている。Ensemblの
Arabidopsis thaliana - Ensembl Genomes 44からゲノムのfastaとgff3ファイルを ダウンロードした。
例7、Oryza sativa Japonica Group
対応するゲノムのリストにOryza sativa Japonica Group (IRGSP-1.0)が記載されている。Ensemblの Oryza sativa Japonica Group - Ensembl Genomes 44 からゲノムのfastaとgff3ファイルを ダウンロードした。
例8、Synechocystis sp. PCC6803(モデルシアノバクテリア)
対応するゲノムはStringDBになっている。StringDBのダウンロードページ(link)にアクセスして、"6803"と検索する。
https://string-db.org/cgi/download.pl?sessionId=Zq97xgCrzE9I&species_text=Synechocystis+sp.+PCC6803 が表示される。
Synechocystis sp. PCC6803のtaxIDが1148なので1148がヒットしている。
この中の1148.protein.info.v11.0.txt.gz (86.3 Kb)をダウンロードする。
Excelで開く。BのカラムのIDであれば認識する。
よって、このIDを用いたgtf/gffでリードカウントしておく。または、リードカウント後、ヘッダー列をBの番号で置き換える。置き換えをexcelで行う場合、vlookupなどを使う。
例9、Phytophthora sojae(卵菌の1種)Ensembl Protists(link)にアノテーション情報も登録されている、比較的よく研究されている生き物だが、iDEPで対応するIDは StringDB 由来のIDだけになる。 例8と同様の手順でStringDBから67593.protein.info.v11.0.txtを開いたのが下記。2列目IDで、iDEPはこのIDなら認識できる。
左下を見ると正しくUsing selected species Phytophthora sojae STRINGdbと認識している。
しかし、上のexcelの写真のようにアノテーション情報がないため、emselbのゲノムとアノテーション情報を使ってリードカウントを行なっているなら、 Emsembl とString間でiD変換か総当たりBLASTなど行なって、EmsemblのアノテーションにStringのIDをアサインしないといけない。しかし、そもそもEmsemblとString間でPhytophthora sojaeのproteomeの数が1万近く違うため(データが新しいEmsemblの方が多い)、アサインミスやアサイン不可のものが出てくるのは間違いない。また、アノテーションが充実していないので、苦労してID認識しても、GO enrichment解析などはほぼ行えない。
Phytophthora sojaeの公共データを使って試してみた。DEGは数百以上検出されたが、データベースが充実していないため、エンリッチされたGOの語彙は無しになっている。
補足資料2
遺伝子IDの変換。
補足資料3
データリストにないゲノムを使用する
リストにない生物について、DEGs以後のGOエンリッチメント解析やパスウェイ解析を行いたければ、新規にアノテーションをつけるか、よく研究されたモデル生物のアノテーション情報を移してこなければならない。新規にアノテーションをつける場合、カウントファイルアップロード時にGO termとpathway IDを紐付けたGMTフォーマットのファイルをアップロードする。一方でモデル生物のアノテーション情報をそのまま使う場合、blastなどでベストヒットのプロテインを決め、そのアノテーション情報を移す。どちらの手段に頼るかは、ユーザーが使っている生物のゲノムがモデル生物との距離や、研究目的によって変わる。
A、モデル生物ゲノムのバージョン変更
モデル生物のゲノム情報は不定期に更新され、座標やアノテーションに修正が入る。このようなゲノムのバージョン変更に伴うgenomic featureの変更は手動で行わなくても、liftoverツールで座標をずらすだけで対応できる。この機能を使うことで、例えばGRCh37のGTFファイルをGRCh38ゲノムの座標に簡単に変更できる。liftoverは、UCSCを始め、NCBI、Ensemblなどが提供している。以下にまとめた。
特にNCBIのRemapは、(blastを事前に行なって)別のよく似た生物のゲノムにもアノテーション情報を移すことができる。
B、少し距離がある時
よく研究されたモデル生物に近いなら、タンパク質レベルでblast 検索してアノテーションを引っ張ってくる事ができる。
C、モデル生物とは距離がある時
De novoでアノテーションをつける。 以下のツールが利用できる。また、完全版は有償だが、Blast2GOもよく使われる。
- Trinotate de novo transcriptome向けのアノテーションツール
- dammit de novo transcriptomeのアノテーションツール
- MEGANTE 植物ゲノムアノテーションwebサービス MEGANTE
- GO FEAT webベースのfunctional annotation ツール
- FunctionAnnotator 包括的なfunctional annotationを行うwebツール
GO term
Gene Ontologyのデータベースとして、EMBL-EBIのQuickGO、AmiGOなどがよくリンクされている。
DEG2からはSTRINGを使ったタンパク質ータンパク質相互作用を調べることができるようになっている。
Gene ID
Gene ID変換にはDAVIDもよく使われる。以下に変換の流れをまとめた。DAVIDはGeneIDリストの詳細を調べるビューアとしても使える。
その他
統合TV
発現制御解析・可視化のチャンネルリスト