macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

8章 補足資料1

2020 2/2 追記

 

章末補足資料

 

1、どのアノテーション情報を使うか

よく研究された大腸菌であっても、数百以上の様々なゲノムが登録されている。同じ系統の株でもGene IDなどは統一されていない。そのため、100%塩基配列が同じゲノムと考えてわずかに違う株のアノテーション情報を使ったりすると、DEG検出後の二次解析がうまく行えない可能性がある。例えば、K-12系統のsubstrain MG1655を使っているとして、MG1655の代わりにK-12のアノテーション情報を使って定量を行うと、データを読み込んでもうまく動作しない。理由は単純で、stringdb由来のMG1655のアノテーション情報だけ取り込まれており、IDが合致しないからである。

Ensemblに登録されている様々なゲノムのIDに対応しているが、StringDBのIDのみに対応しているゲノムも多く存在する。また、Ensembl IDとStringDBのID両方に対応しているゲノムもあってややこしいが、両方対応しているならより情報が新しいEnsembl IDを選ぶ。Ensemblにデータベースはあるが、StringDBのIDにしか対応していない場合もある。

 

以下に、gene IDの認識が正しく行われ、二次解析がうまくいくことを確認した例を載せておく。 

例1、E.coli

ENsembl bacteriaのE.coliゲノム- Escherichia coli str. K-12 substr. MG1655(https://bacteria.ensembl.org/Escherichia_coli_str_k_12_substr_mg1655/Info/Index)からゲノムのfastaとgff3ファイルを ダウンロードした。

 

 例2、S.cerevisiae

対応するゲノムのリストに Saccharomyces cerevisiae (R64-1-1)が記載されている。EnsemblSaccharomyces cerevisiae - Ensembl genome browser 97 からゲノムのfastaとgff3ファイルを ダウンロードした。

 

例3、Zebrafish (danio rerio)

対応するゲノムのリストに Zebrafish (GRCz11) が記載されている。Ensembl

Danio rerio - Ensembl genome browser 97 からゲノムのfastaとgff3ファイルを ダウンロードした。

 

例4、Mouse (mus musculus)

対応するゲノムのリストにMouse (GRCm38.p6) が記載されている。Ensembl

Mus musculus - Ensembl genome browser 97からゲノムのfastaとgff3ファイルを ダウンロードした。

 

例5、 C.elegans

対応するゲノムのリストにCaenorhabditis elegans (WBcel235)  が記載されている。Ensembl

Caenorhabditis elegans - Ensembl genome browser 97 からゲノムのfastaとgff3ファイルを ダウンロードした。 

 

例6、A.thaliana

対応するゲノムのリストにArabidopsis thaliana (TAIR10) が記載されている。Ensembl

Arabidopsis thaliana - Ensembl Genomes 44からゲノムのfastaとgff3ファイルを ダウンロードした。 

 

例7、Oryza sativa Japonica Group

対応するゲノムのリストにOryza sativa Japonica Group (IRGSP-1.0)が記載されている。Ensemblの Oryza sativa Japonica Group - Ensembl Genomes 44 からゲノムのfastaとgff3ファイルを ダウンロードした。 

 

例8、Synechocystis sp. PCC6803(モデルシアノバクテリア

対応するゲノムはStringDBになっている。StringDBのダウンロードページ(link)にアクセスして、"6803"と検索する。

https://string-db.org/cgi/download.pl?sessionId=Zq97xgCrzE9I&species_text=Synechocystis+sp.+PCC6803 が表示される。

f:id:kazumaxneo:20190920215618p:plain

 Synechocystis sp. PCC6803のtaxIDが1148なので1148がヒットしている。

 

この中の1148.protein.info.v11.0.txt.gz (86.3 Kb)をダウンロードする。

f:id:kazumaxneo:20190920215723p:plain

 

Excelで開く。BのカラムのIDであれば認識する。

f:id:kazumaxneo:20190920215842p:plain

よって、このIDを用いたgtf/gffでリードカウントしておく。または、リードカウント後、ヘッダー列をBの番号で置き換える。置き換えをexcelで行う場合、vlookupなどを使う。

 

例9、Phytophthora sojae卵菌の1種Ensembl Protists(link)にアノテーション情報も登録されている、比較的よく研究されている生き物だが、iDEPで対応するIDは StringDB 由来のIDだけになる。 例8と同様の手順でStringDBから67593.protein.info.v11.0.txtを開いたのが下記。2列目IDで、iDEPはこのIDなら認識できる。

f:id:kazumaxneo:20200202143307p:plain

 

 左下を見ると正しくUsing selected species Phytophthora sojae STRINGdbと認識している。

f:id:kazumaxneo:20200202143527p:plain

しかし、上のexcelの写真のようにアノテーション情報がないため、emselbのゲノムとアノテーション情報を使ってリードカウントを行なっているなら、 Emsembl とString間でiD変換か総当たりBLASTなど行なって、EmsemblのアノテーションにStringのIDをアサインしないといけない。しかし、そもそもEmsemblとString間でPhytophthora sojaeのproteomeの数が1万近く違うため(データが新しいEmsemblの方が多い)、アサインミスやアサイン不可のものが出てくるのは間違いない。また、アノテーションが充実していないので、苦労してID認識しても、GO enrichment解析などはほぼ行えない。

Phytophthora sojaeの公共データを使って試してみた。DEGは数百以上検出されたが、データベースが充実していないため、エンリッチされたGOの語彙は無しになっている。

f:id:kazumaxneo:20200202180520p:plain



 

 

補足資料2

遺伝子IDの変換。



 

補足資料3

データリストにないゲノムを使用する

リストにない生物について、DEGs以後のGOエンリッチメント解析やパスウェイ解析を行いたければ、新規にアノテーションをつけるか、よく研究されたモデル生物のアノテーション情報を移してこなければならない。新規にアノテーションをつける場合、カウントファイルアップロード時にGO termとpathway IDを紐付けたGMTフォーマットのファイルをアップロードする。一方でモデル生物のアノテーション情報をそのまま使う場合、blastなどでベストヒットのプロテインを決め、そのアノテーション情報を移す。どちらの手段に頼るかは、ユーザーが使っている生物のゲノムがモデル生物との距離や、研究目的によって変わる。

A、モデル生物ゲノムのバージョン変更

モデル生物のゲノム情報は不定期に更新され、座標やアノテーションに修正が入る。このようなゲノムのバージョン変更に伴うgenomic featureの変更は手動で行わなくても、liftoverツールで座標をずらすだけで対応できる。この機能を使うことで、例えばGRCh37のGTFファイルをGRCh38ゲノムの座標に簡単に変更できる。liftoverは、UCSCを始め、NCBIEnsemblなどが提供している。以下にまとめた。

特にNCBIのRemapは、(blastを事前に行なって)別のよく似た生物のゲノムにもアノテーション情報を移すことができる。

 

B、少し距離がある時

よく研究されたモデル生物に近いなら、タンパク質レベルでblast 検索してアノテーションを引っ張ってくる事ができる。 

 

 

C、モデル生物とは距離がある時

De novoでアノテーションをつける。 以下のツールが利用できる。また、完全版は有償だが、Blast2GOもよく使われる。

 

 

GO term

Gene Ontologyのデータベースとして、EMBL-EBIのQuickGO、AmiGOなどがよくリンクされている。


 

DEG2からはSTRINGを使ったタンパク質ータンパク質相互作用を調べることができるようになっている。


 

Gene ID

Gene ID変換にはDAVIDもよく使われる。以下に変換の流れをまとめた。DAVIDはGeneIDリストの詳細を調べるビューアとしても使える。

 

その他 

統合TV 

発現制御解析・可視化のチャンネルリスト