８章補足資料１ - macでインフォマティクス

2020 2/2 追記

章末補足資料

１、どのアノテーション情報を使うか

よく研究された大腸菌であっても、数百以上の様々なゲノムが登録されている。同じ系統の株でもGene IDなどは統一されていない。そのため、100%塩基配列が同じゲノムと考えてわずかに違う株のアノテーション情報を使ったりすると、DEG検出後の二次解析がうまく行えない可能性がある。例えば、K-12系統のsubstrain MG1655を使っているとして、MG1655の代わりにK-12のアノテーション情報を使って定量を行うと、データを読み込んでもうまく動作しない。理由は単純で、stringdb由来のMG1655のアノテーション情報だけ取り込まれており、IDが合致しないからである。

Ensemblに登録されている様々なゲノムのIDに対応しているが、StringDBのIDのみに対応しているゲノムも多く存在する。また、Ensembl IDとStringDBのID両方に対応しているゲノムもあってややこしいが、両方対応しているならより情報が新しいEnsembl IDを選ぶ。Ensemblにデータベースはあるが、StringDBのIDにしか対応していない場合もある。

以下に、gene IDの認識が正しく行われ、二次解析がうまくいくことを確認した例を載せておく。

例１、E.coli

ENsembl bacteriaのE.coliゲノム- Escherichia coli str. K-12 substr. MG1655（https://bacteria.ensembl.org/Escherichia_coli_str_k_12_substr_mg1655/Info/Index）からゲノムのfastaとgff3ファイルをダウンロードした。

例２、S.cerevisiae

対応するゲノムのリストに Saccharomyces cerevisiae (R64-1-1)が記載されている。EnsemblのSaccharomyces cerevisiae - Ensembl genome browser 97 からゲノムのfastaとgff3ファイルをダウンロードした。

例３、Zebrafish (danio rerio)

対応するゲノムのリストに Zebrafish (GRCz11) が記載されている。Ensemblの

Danio rerio - Ensembl genome browser 97 からゲノムのfastaとgff3ファイルをダウンロードした。

例4、Mouse (mus musculus)

対応するゲノムのリストにMouse (GRCm38.p6) が記載されている。Ensemblの

Mus musculus - Ensembl genome browser 97からゲノムのfastaとgff3ファイルをダウンロードした。

例5、 C.elegans

対応するゲノムのリストにCaenorhabditis elegans (WBcel235) が記載されている。Ensemblの

Caenorhabditis elegans - Ensembl genome browser 97 からゲノムのfastaとgff3ファイルをダウンロードした。

例6、A.thaliana

対応するゲノムのリストにArabidopsis thaliana (TAIR10) が記載されている。Ensemblの

Arabidopsis thaliana - Ensembl Genomes 44からゲノムのfastaとgff3ファイルをダウンロードした。

例7、Oryza sativa Japonica Group

対応するゲノムのリストにOryza sativa Japonica Group (IRGSP-1.0)が記載されている。Ensemblの Oryza sativa Japonica Group - Ensembl Genomes 44 からゲノムのfastaとgff3ファイルをダウンロードした。

例8、Synechocystis sp. PCC6803（モデルシアノバクテリア）

対応するゲノムはStringDBになっている。StringDBのダウンロードページ（link）にアクセスして、"6803"と検索する。

https://string-db.org/cgi/download.pl?sessionId=Zq97xgCrzE9I&species_text=Synechocystis+sp.+PCC6803 が表示される。

f:id:kazumaxneo:20190920215618p:plain

Synechocystis sp. PCC6803のtaxIDが1148なので1148がヒットしている。

この中の1148.protein.info.v11.0.txt.gz (86.3 Kb)をダウンロードする。

f:id:kazumaxneo:20190920215723p:plain

Excelで開く。BのカラムのIDであれば認識する。

f:id:kazumaxneo:20190920215842p:plain

よって、このIDを用いたgtf/gffでリードカウントしておく。または、リードカウント後、ヘッダー列をBの番号で置き換える。置き換えをexcelで行う場合、vlookupなどを使う。

例9、Phytophthora sojae（卵菌の１種）Ensembl Protists（link）にアノテーション情報も登録されている、比較的よく研究されている生き物だが、iDEPで対応するIDは StringDB 由来のIDだけになる。例８と同様の手順でStringDBから67593.protein.info.v11.0.txtを開いたのが下記。２列目IDで、iDEPはこのIDなら認識できる。

f:id:kazumaxneo:20200202143307p:plain

左下を見ると正しくUsing selected species Phytophthora sojae STRINGdbと認識している。

f:id:kazumaxneo:20200202143527p:plain

しかし、上のexcelの写真のようにアノテーション情報がないため、emselbのゲノムとアノテーション情報を使ってリードカウントを行なっているなら、 Emsembl とString間でiD変換か総当たりBLASTなど行なって、EmsemblのアノテーションにStringのIDをアサインしないといけない。しかし、そもそもEmsemblとString間でPhytophthora sojaeのproteomeの数が１万近く違うため（データが新しいEmsemblの方が多い）、アサインミスやアサイン不可のものが出てくるのは間違いない。また、アノテーションが充実していないので、苦労してID認識しても、GO enrichment解析などはほぼ行えない。

Phytophthora sojaeの公共データを使って試してみた。DEGは数百以上検出されたが、データベースが充実していないため、エンリッチされたGOの語彙は無しになっている。

f:id:kazumaxneo:20200202180520p:plain

補足資料２

遺伝子IDの変換。

補足資料３

データリストにないゲノムを使用する

リストにない生物について、DEGs以後のGOエンリッチメント解析やパスウェイ解析を行いたければ、新規にアノテーションをつけるか、よく研究されたモデル生物のアノテーション情報を移してこなければならない。新規にアノテーションをつける場合、カウントファイルアップロード時にGO termとpathway IDを紐付けたGMTフォーマットのファイルをアップロードする。一方でモデル生物のアノテーション情報をそのまま使う場合、blastなどでベストヒットのプロテインを決め、そのアノテーション情報を移す。どちらの手段に頼るかは、ユーザーが使っている生物のゲノムがモデル生物との距離や、研究目的によって変わる。

A、モデル生物ゲノムのバージョン変更

モデル生物のゲノム情報は不定期に更新され、座標やアノテーションに修正が入る。このようなゲノムのバージョン変更に伴うgenomic featureの変更は手動で行わなくても、liftoverツールで座標をずらすだけで対応できる。この機能を使うことで、例えばGRCh37のGTFファイルをGRCh38ゲノムの座標に簡単に変更できる。liftoverは、UCSCを始め、NCBI、Ensemblなどが提供している。以下にまとめた。